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前 言 
为 什么 要 写 这 本 书 


近 几 年 ， 市 场 上 关于 PHP 的 书 已 经 很 多 了 ， 各 种 培训 机 构 也 如 雨 后 
春笋 般 不 断 增加 。 那 为 什么 还 要 写 这 本 书 呢 ? 这 本 书 存 在 的 意义 又 在 哪 
里 ? 这 要 从 下 面 的 几 个 问题 说 起 。 


有 没有 这 样 一 本 PHP 教 材 ， 它 不 讲 HIML 和 CSS， 也 不 讲 JavaScript 
基础 ， 甚 至 不 讲 PHP 语 法 基础 ? 


有 没有 这 样 一 本 PHP 教 材 ， 它 不 讲 留言 本 或 博客 的 开发 ， 也 不 讲 数 
据 库 的 CRUD 操 作 ? 


有 没有 这 样 一 本 PHP 教 材 ， 它 专注 于 Web 开 发 技术 的 最 前 沿 ， 深 入 
浅 出 ， 适 合 中 高 级 程序 员 的 进 阶 和 提高 ? 


有 没有 这 样 一 本 PHP 教 材 ， 它 提倡 面向 对 象 的 程序 思想 ， 提 倡 算法 
和 数据 结构 的 重要 性 ， 提 倡 对 网 络 协 议 的 深入 理解 ， 且 没有 大 篇 幅 的 代 
码 ， 而 是 更 多 偏重 于 理论 讲解 ? 


有 没有 这 样 一 本 PHP 教 材 ， 它 探讨 PHP 的 扩展 开发 ， 探 讨 高 并 发 大 
流量 的 架构 ， 深 入 探讨 NoSQL 的 内 部 实现 和 细节 ? 


以 上 几 个 问题 也 是 我 在 早期 PHP 学 习 的 过 程 中 一 直 在 寻找 的 答案 ， 
可 是 我 并 没有 找到 一 本 理想 的 PHP 书 籍 ， 一 本 适合 中 高 级 程序 员 进 阶 的 
书籍 。 当 怀 独 同样 问题 的 旭 松 兄 找 到 我 时 ， 我 们 不 共产 生 一 个 念 
头 :“ 既 然 现 在 市 场 上 缺少 一 本 这 样 的 书籍 ， 我 们 何不 上 自己 写 一 本 呢 ? 
利己 利 人 的 事 值 得 去 做 。” 然 后 一 担 即 合 ， 次 做 就 做 ， 现 在 这 本 书 经 历 
长 达 一 年 多 的 酝酿 和 写作 过 程 终 于 完稿 了 。 


我 是 在 大 学 期 间接 触 到 PHP 语 言 的 ， 并 马上 被 其 简洁 的 语法 和 极 高 
的 开发 效率 所 吸引 ， 一 头 扎 进 PHP 开 发 的 世界 中 。 随 着 学 习 的 深入 ， 并 
经 常 关 注 PHP 社 区 的 动态 ， 我 很 快意 识 到 一 些 PHP 社 区 普遍 存在 的 问 
题 。 比 如 PHP 社 区 一 直 争 论 算法 重 不 重要 ， 面 向 对 象 好 不 好 ， 代 码 质量 
重要 还 是 开发 速度 重要 的 问题 。 还 有 壁 如 为 什么 我 去 大 型 互联 网 公司 应 
聘 PHP 程 序 员 ， 却 不 考察 我 对 PHP 语 法 和 函数 的 掌握 情况 ， 而 是 会 问 我 























C 语 言 、 算 法 、 网 络 协议 、 高 并 发 处 理 、MVC 理 论 这 些 看 似 和 PHP 不 省 
边 的 问题 。 


PHP 到 底 要 怎么 学 ， 学 什么 ， 一 个 高 级 PHP 程 序 员 应 该 是 什么 样 
的 ， 我 想 这 也 是 很 多 PHP 新 手 和 工作 一 两 年 的 PHP 开 发 者 的 疑惑 。 这 本 
书 所 要 解决 的 就 是 这 一 系列 的 问题 。 

在 我 看 来 ， 一 本 技术 书籍 的 价值 在 于 其 对 知识 的 提炼 和 与 众 不 同 的 
地 方 。 举 例 来 说 ， 到 一 个 书店 去 看 书 ， 你 最 想 用 笔 抄 下 来 或 撕 下 来 带 走 
的 那 几 页 ， 束 是 对 你 帮助 最 大 的 东西 ， 也 是 你 认为 这 本 书 的 价值 所 在 。 
也 是 基于 这 个 想法 ， 我 们 思考 这 本 书 该 写 什 么 ， 怎 么 写 ， 哪 些 地 方 对 读 
者 有 帮助 。 我 们 试图 从 不 同 的 角度 带领 读者 来 看 PHP， 进 而 给 这 本 书 注 
入 一 些 不 一 样 的 东西 。 我 们 希望 这 是 一 件 有 意义 的 事 。 

本 书 适 合 的 对 象 

PHP 爱 好 者 ; 

想 进 阶 的 初级 PHP 程 序 员 ; 

对 PHP 扩 展开 发 感 兴趣 的 读者 ; 

对 高 并 发 感 兴趣 的 读者 ; 

对 NoSQL 应 用 和 实现 原理 感 兴趣 的 读者 ; 

从 事 PHP 网 络 应 用 ， 想 知道 HTTP 协 议 、Socket 等 更 多 细节 的 开发 人 
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想 就 职 于 大 型 互联 网 公司 的 PHP 程 序 员 ; 
开设 相关 课程 的 大 专 院 校 的 学 生 ; 

公司 内 部 培训 的 学 员 。 

如 何 阅 读本 书 


本 书 一 共有 14 章 。 每 章节 都 可 以 单独 阅读 ， 由 于 部 分 知识 点 之 间 存 
在 一 定 的 衔接 ， 故 建议 按 先 后 顺序 阅读 。 











第 1 章 ”为 面向 对 象 思 想 的 核心 概念 。 本 章 主要 讲解 面向 对 象 开发 
的 思想 ， 重 点 讲解 面向 对 象 模 型 的 建立 ， 以 及 面向 对 象 的 一 些 基础 概 
念 。 通 过 大 量 对 比 和 实例 ， 尤 其 是 与 Java 的 对 比 ， 力 图 从 不 同 角度 讲解 
PHP 面 向 对 象 的 特性 ， 让 PHP 程 序 员 看 到 不 同 的 面向 对 象 。 求 同 存 异 是 
本 章 的 核心 思想 。 


第 2 章 ” 为 用 面 癌 对 象 思 维 写 程 序 。 本 章 用 简练 的 语言 讲解 了 面 回 
对 象 设 计 的 五 大 原则 ， 这 五 大 原则 也 是 理解 设计 模式 的 基础 所 在 ， 帮 助 
读者 站 在 一 个 更 高 的 角度 思考 面 问 对 象 。 


第 3 章 “” 为 正则 表达 式 技巧 与 实战 。 本 章 详细 介绍 了 正则 的 基础 语 
法 ， 通 过 大 量 的 示例 、 通 俗 的 语言 讲解 正则 概念 ， 引 导读 者 理解 正则 的 
一 系列 规则 。 接 下 来 ， 结 合 实际 工作 用 安全 过 小、URL 和 章 写 等 实例 ， 加 
深 对 正则 的 应 用 和 掌握 。 最 后 给 出 正则 效率 优化 的 一 些 普遍 技巧 和 蔡 代 
方案 ， 让 读者 对 正则 的 使 用 得 心 应 手 。 


第 4 章 ”为 PHP 网 络 技 术 及 应 用 。 本 章 着 重 介 绍 了 HTTP 协 议 、 
Socket 开 发 、WebService、Cookie 和 Session 使 用 等 。 结 合 实战 向 读者 阐 
述 网 络 开 发 的 核心 和 重点 ， 特 别 是 对 HTTP 协 议 的 理解 。HTTP 协 议 是 
Web 开 发 的 基石 ， 也 是 各 种 面试 和 开发 中 必然 遇 到 的 知识 点 。 而 Socket 
则 是 应 用 交互 的 桥梁 ， 保 证 了 有 用 的 可 扩展 性 。 


第 5 章 ”为 PHP 与 数据 库 基础 。 本 章 从 不 同 角 度 分 析 了 MySQL， 介 
绍 了 PDO、MySQL 优 化 、 存 储 过 程 、 事 件 调度 机 制 以 及 MySQL 安 全 防 


范 等 内 容 。 


第 6 瘟 ” 为 PHP 模 板 引擎 的 原理 与 最 佳 实践 。 本 章 通 过 实现 一 个 简 
单 的 模板 引擎 ， 学 习 模 板 引擎 的 原理 和 使 用 方法 ， 然 后 对 比 几 大 流行 的 
模板 引擎 实现 方案 ， 简 单 介绍 了 各 种 实现 方案 的 思想 和 优 缺 点 ， 最 后 探 
讨 模 板 引 擎 的 意义 。 


第 7 章 ”为 PHP 扩 展开 发 。 本 章 的 知识 是 本 书 核心 内 容 ， 介 绍 了 PHP 
扩展 开发 的 几 个 重要 知识 点 ， 如 扩展 框 淋 搭建、PHP 生 命 周期 、PHP 变 
量 在 内 核 中 的 实现 方式 、Zend 引 擎 、 内 存 管理 等 ， 让 读者 深入 PHP 撒 
层 ， 知 其 然 也 知 其 所 以 然 。 


第 8 间 ”为 缓和 但。 本章 主要 介绍 了 绥 存 的 基本 原理 和 三 个 衡量 指 
标 ， 通 过 几 个 实例 加 深 读者 对 缓存 的 理解 。 利 用 本 章 知 识 ， 读 者 应 该 能 























设计 一 个 比较 合理 的 缓存 方案 。 


第 9 章 ”为 Memcached 应 用 与 内 磋 。 本 章 深 入 剖析 了 Memcached 的 
实现 和 内 部 结构 ， 从 而 使 读者 掌握 Memcached 的 高 级 应 用 ， 对 构建 复杂 
环境 的 缓存 层 有 个 清晰 的 认识 。 


第 10 章 ”为 Redis 应 用 与 内 幕 。 本 章 重 点 介绍 了 Redis 的 深入 应 用 ， 
如 事务 处 理 、 主 从 同步 、 虚 拟 内 存 等 ， 和 第 9 章 类 似 ， 探 讨 了 Redis 的 实 
现 内 医 。 合 理 利 用 Redis 可 以 为 我 们 解决 大 流量 高 并 发 的 应 用 。 


第 11 章 ”为 高 性 能 网 站 架构 。 本 章 探讨 了 高 性 能 架构 的 基本 出 发 
点 ， 重 点 以 HandlerSocket、MySQL 主 从 复制 、 反 向 代理 缓存 软件 
Varnish 和 任务 分 发 框架 Gearman 为 例 ， 讲 述 几 种 高 性 能 架构 中 会 用 到 的 
技术 。 


第 12 章 ”为 调试 与 测试 。 科 学 的 调试 方法 有 助 于 快速 找 出 潜在 的 
Bug、 理 解 复 淋 应 用 的 流程 、 提 高 开 肥 效率 。 单 元 测试 是 代码 质量 的 保 
障 。 在 这 一 章 的 最 后 一 节 介绍 了 使 用 JMeter 进 行 压力 测试 的 方法 。 


第 13 章 ”为 Hash 算 法 与 数据 库 的 实现 。 本 章 介绍 了 Hash 算 法 的 基本 
原理 ， 用 此 算法 实现 一 个 简单 的 、 基 于 Hash 的 数据 库 ， 让 读者 意识 到 算 
法 的 重要 性 和 可 操作 性 。 


第 14 章 ”为 PHP 编 码 规范 。 本 章 介 绍 了 PHP 开 发 中 应 遵循 的 基本 代 
码 规 范 ， 并 提出 合理 建议 。 好 的 代码 必然 是 规范 的 代码 。 


本 书 第 1、2、3、5、6、8、12、14 章 由 陈 文 撰写 ， 第 7、9、10、 
11、13 章 由 列 旭 松 撰写 ， 第 4 章 由 两 人 共同 完成 。 


勤 误 和 文 持 


由 于 我 们 的 水 平和 开发 经 验 有 限 ， 同 时 计算 机 技术 更 新 较 快 ， 书 中 
难免 存在 不 足 之 处 ， 有 些 章 节 内 容 可 能 从 未 来 的 东 一 天 开始 不 再 适用 ， 
还 望 读者 理解 和 体 访 ， 并 恳请 读者 批评 指正 。 您 各 对 本 书 有 什么 好 的 建 
议 或 者 对 书 中 部 分 内 容 有 疑惑 ， 可 与 我 们 联系 ， 我 们 将 尽量 为 读者 提供 
最 满意 的 解答 。 期 待 得 到 您 的 真 执 反 馈 。 我 们 的 联系 方式 如 下 : 















































陈 文 : waitfox@qgq.com 


列 旭 松 : liexusong@qq.com 
感谢 
首先 要 感谢 PHP 之 父 Rasmnus Lerdorf， 是 他 创建 了 这 个 简单 、 轻 


松 、 有 趣 、 快 速 而 又 高 效 的 语言 ， 其 次 ， 感 谢 PHP 社 区 每 一 位 充满 活力 
的 朋友 ， 和 你 们 的 交流 使 我 学 到 很 多 ， 本 书 有 个 今 闪 容 就 末日 于 社区 的 
贸 慧 。 





在 这 里 尤其 要 感谢 机 械 工业 出 版 社 华章 公司 的 大 力 文 持 ， 特 别 是 杨 
福 川 和 日 宇 两 位 编辑 ， 在 一 年 多 的 时 间 里 ， 因 为 有 了 你 们 的 耐心 指导 、 
逐 字 逐 句 认真 审 稳 和 改 稿 才 有 了 本 书 的 诞生 。 


最 后 ， 还 要 感谢 家 人 和 朋友 的 支持 。 





陈 文 


第 1 草 ”和 面 同 对 象 思 想 的 核心 概念 
面 问 对 象 是 什么 ? 以 下 是 维基 百科 对 面向 对 象 的 解释 : 
面向 对 象 程序 设计 (Object Oriented Programming，OOP) 是 一 种 程 


序 设 计 范 型 ， 同 时 也 是 一 种 程序 开发 方法 。 它 将 对 象 作为 程序 的 基本 单 
0 





面 问 过程 、 面 问 对 象 以 及 函数 式 编 程 被 人 们 称 为 编程 语言 中 的 三 大 
范式 (实际 上 ， 面 向 过 程 与 面向 对 象 都 同属 于 命令 式 编程 》， 是 三 种 不 
0 i 0 
和 可 扩展 性 。 


面 问 对 象 是 一 种 更 高 级 、 更 抽象 的 思维 方式 ， 面 癌 过 程 虽 然 也 是 一 
种 抽象 ， 但 面 癌 过 程 是 一 种 基础 的 抽象 ， 面 癌 对 象 又 是 建立 在 面 癌 过 程 
之 上 的 更 高 层次 的 抽象 ， 因 此 对 面 癌 对 象 的 理解 也 就 不 是 那么 容易 了 。 


面 同 对 象 和 具体 的 语言 无 关 。 在 面向 对 象 的 世界 里 ， 常 常 提 到 的 两 
种 典型 语言 C++ 和 Java。 它 们 都 是 很 好 的 面 癌 对 象 的 开发 语言 。 实 
际 上 ， 像 C 语 言 这 种 大 家 普 过 认为 的 面 癌 过 程 开 发 的 主打 语言 ， 也 能 进 
行 面 同 对 象 的 开发 ， 就 连 JavaScript 这 门 很 久之 前 一 直 被 视 作 面向 过 程 编 
程 的 语言 ， 人 们 对 它 的 认识 也 发 生 了 改变 ， 逐 渐 承 认 其 是 面 同 对 象 的 语 
言 ， 并 且 也 接受 了 JavaScript 独 特 的 面向 对 象 的 语法 。 所 以 我 们 说 面向 对 
象 只 是 种 程序 设计 的 理念 ， 和 具体 的 语言 无 天 。 不 同 的 程序 员 既 可 以 用 
C 语 言 写 出 面 问 对 象 的 风格 来 ， 也 可 以 用 Java 写 成 面 回 对 象 的 风格 。 这 
里 并 不 是 说 面向 对 象 的 风格 要 优 于 面 癌 过 程 ， 而 是 二 者 各 有 自己 所 擅长 
的 领域 。OOPL (Object Oriented Programming Language) 可 以 提高 程序 
的 封装 性 、 复 用 性 、 可 维护 性 ， 但 仅仅 是 “可 以 ”， 能 不 能 真正 实现 这 些 
优点 ， 还 取 雇 于 编程 和 设计 人 员 。 束 PHP 而 言 ， 其 不 是 一 门 纯 的 面 癌 对 
象 的 语言 ， 但 是 仍然 可 以 使 用 PHP 写 出 好 的 面向 对 象 风 格 的 代码 。 


实际 开发 中 ， 面 向 对 象 为 什么 让 我 们 觉得 那么 难 ? 面向 对 象 完 竟 难 
在 什么 地 方 ? 为 什么 面 癌 对 象 开发 在 PHP 里 一 直 不 是 很 受 重视 ， 并 且 没 
I 

, 思维 2? 
































在 这 里 ， 我 们 将 就 面向 对 象 一 些 概念 展开 讨论 ， 其 中 重点 讨论 PHP 
特色 的 面向 对 象 的 风格 和 语法 ， 并 通过 相互 借鉴 和 对 比 ， 使 读者 认识 
PHP 自 身 的 特点 ， 尤 其 是 和 其 他 语言 中 不 同 的 地 方 。 


1.1 面向 对 象 的 “ 形 ” 与 “本 ” 
类 是 对 象 的 抽象 组 织 ， 对 象 是 类 的 具体 存在 。 


2200 年 前 的 战国 时 期 ， 赵 国平 原 君 的 食客 公孙 龙 在 骑 关 白马 进 城 
时 ， 被 守 城 官 以 马 不 能 入 城 拦 下 ， 公 和 孙 龙 即兴 演讲 ， 口 述 “ 白 马 非 马 ” 一 
论 ， 守 城 官 无 法 反 驱 ， 于 是 公孙 龙 就 骑 着 他 的 昌 马 〈 不 是 马 的 ) 进 城 去 
了 。 这 就 是 历史 上 了 最 经 典 的 一 次 对 面 癌 对 象 思 维 的 阐述 。 


公孙 龙 的 “白马 非 马 ” 论 如 下 : 


“站 马 非 马 ”， 可 可 加 El 人 二 ?2 “加 和 5 记 以 市 形 

也 ; 白 者 ， 所 以 命 色 也 。 命 色 者 非 命 形 也 。 故 日 : “白马 非 

马 '。” 四 : “有 和 白 马 不 可 谓 无 马 也 。 不 可 谓 无 马 者 ， 非 马 也 ? 有 白马 为 

有 马 ， 和 白 之 ， 非 马 何 也 ? ”日 :“ 求 号 ， 黄 、 黑 马 宵 可 致 ， 求 白马 ， 黄 、 

黑马 不 可 致 。 使 白 杞 乃 马 也 ， 是 所 求 一 也 。 所 求 一 者 ， 白 者 不 异 瑟 也 。 
所 求 不 异 ， 如 黄 、 黑 马 有 可 有 不 可 ， 何 也 ? 可 与 不 可 ， 其 相 非 明 。 故 
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公孙 龙 乃 战国 时 期 的 “名 家 ”*”， 名 家 的 中 心 论题 是 所 谓 “ 名 ”( 概 念 ) 
和 “ 实 ”( 存 在 ) 的 逻辑 关系 问题 。 名 者 ， 抽 象 也 ， 类 也 。 实 者 ， 具 体 
I 
维 的 思想 家 。 


“白马 非 马 ?这 一 论断 的 关键 就 在 于 *“ 非 >? 字 ， 公 孙 龙 一 再 强调 白马 与 
马 的 特征 ， 通 过 把 白马 和 马 视 为 两 个 不 同 的 类 ， 用 * 非 >? 这 一 关系 ， 成 功 
地 把 “白马 ”与 “ 马 ” 的 关系 由 从 属 关 系 转移 到 “白马 ”这 个 对 象 与 “ 马 ” 这 个 
对 象 的 相等 关系 上 ， 显 然 ， 二 者 不 等 ， 故 “白马 非 马 ”。 而 我 们 正常 的 思 
维 是 ， 马 是 一 小 关 ， 日 本 是 与 这 个 类 的 一 个 对 帝 ; 三 者 属于 从 属 关系 。 
A 
办 怕 。 


白马 非 马 这 个 典故 ， 我 们 可 以 称 之 为 诡辩 。 但 我 们 把 这 个 问题 抽象 
























































出 来 ， 实 际 上 讨论 的 就 是 类 与 类 之 间 的 界定 、 类 的 定义 等 一 系列 问题 ， 
类 应 该 抽象 到 什么 程度 ， 其 中 即 涉及 了 类 与 对 象 的 本 质问 题 ， 也 涉及 了 
类 的 设计 过 程 中 的 一 些 原则 。 


1.1.1 对象 的 “ 形 ” 


要 回答 类 与 对 象 本 质 这 个 问题 ， 我 想 可 以 先 从 “ 形 ” 的 角度 来 回答 。 
本 节 以 PHP 为 例 ， 来 探讨 对 象 的 “ 形 ” 与 “本 ”的 问题 。 


类 是 我 们 对 一 组 对 象 的 描述 。 


在 PHP 里 ， 每 个 类 的 定义 都 以 关键 字 class 开 头 ， 后 面 跟着 类 名 ， 紧 
接着 一 对 花 括 写 ， 里 面包 含有 类 成 员 和 方法 的 定义 。 如 下 面 代码 所 示 : 














在 这 里 ， 我 们 定义 了 一 个 person 类 。 代 表 了 抽象 出 来 的 人 这 个 概 
念 ， 它 含有 姓名 和 性 别 这 两 个 属性 ， 还 具有 一 个 开口 说 话 的 方法 ， 这 个 
Re 
实例 : 








性 中 中 中 OO OO 
0 





这 段 代 码 则 实例 化 了 person 类 ， 产 生 了 一 个 student 对 象 和 teacher 对 
象 的 实例 。 实 际 上 也 就 是 从 抽象 到 有 具体 的 过 程 。 现 实 世 界 中 ， 仅 仅 
说 “人 ?是 没有 意义 的 ， 中 国人 把 它 叫 *“ 人 ”， 美 国人 把 它 叫 person 或 者 
human， 如 果 高 兴 ， 把 它 叫 “God” 或 者 “ 板 使” 都 无 所 谓 。 但 是 只 要 你 
把 < 人 ”这 个 概念 加 上 各 种 属性 和 方法 ， 比 如 说 有 两 条 腿 、 直 立行 走 、 会 
说 话 ， 则 无 论 是 中 国人 ， 还 是 美国 人 ， 甚 至 外 星人 都 是 能 理解 你 所 描述 
的 事物 。 所 以 ， 一 个 类 的 设计 需要 能 充分 展示 其 最 重要 的 属性 和 方法 ， 
并 且 能 与 其 他 事物 相 区 分 。 只 有 类 本 身 有 意义 ， 从 抽象 到 具体 的 实例 化 














才 会 有 意义 。 
根据 上 面 的 实例 代码 ， 可 以 有 下 面 的 一 些 理解 : 


类 定义 了 一 系列 的 属性 和 方法 ， 并 提供 了 实际 的 操作 细 市 ， 这 些 方 
法 可 以 用 来 对 属性 进行 加 工 。 


对 象 含 有 类 属性 的 具体 值 ， 这 束 是 类 的 实例 化 。 正 是 由 于 属性 的 不 
同 ， 才 能 区 分 不 同 的 对 象 。 在 上 面 例子 里 ， 由 于 student 和 teacher 的 性 别 
和 姓名 不 一 样 ， 才 得 以 区 分 开 二 人 。 


类 与 对 象 的 关系 类 似 一 种 服务 与 被 服务 、 加 工 与 被 加 工 的 关系 ， 具 
体 而 言 ， 束 如 同 原材料 与 流水 线 的 关系 。 只 需要 在 对 象 上 调用 类 中 有 所存 
在 的 方法 ， 就 可 以 对 类 的 属性 进行 加 工 ， 并 且 展 示 其 功能 。 


类 是 属性 和 方法 的 集合 ， 那 么 在 PHP 里 ， 对 象 是 什么 呢 ? 比较 普遍 
的 说 法 就 是 “对 象 由 属性 和 方法 组 成 对 象 是 由 属性 组 成 ， 这 很 好 理 
解 ， 一 个 对 象 的 属性 是 它 区 别 于 另 一 个 对 象 的 关键 所 在 。 由 于 PHP 的 对 
i 
用 有 的 属性 了 。 


继续 使 用 上 面 代码 ， 可 以 打印 student 对 象 : 














print_r ( (array) $ student); 
var_dump ($student); 


到 这 里 ， 可 以 很 直观 地 认识 到 ， 对 象 就 是 一 堆 数据 。 既 然 如 此 ， 可 
以 把 一 个 对 象 存储 起 来 ， 以 便 需 要 时 用 。 这 惑 是 对 象 的 序列 化 。 


所 谓 序列 化 ， 残 是 把 保存 在 内 存 中 的 各 种 对 象 状态 属性) 保存 起 
来 ， 并 且 在 需要 时 可 以 还 原 出 来 。 下 面 的 代码 实现 了 把 内 存 中 的 对 象 当 
前 状态 保存 到 一 个 文件 中 : 








str=serialize ($student) ; 
ho $str; 
ile put contents (' store.txt’ ，$str) ， 


输出 序列 化 后 的 结 采 : 








注意 ”在 序列 化 和 反 序 列 化 时 都 需要 包含 类 的 对 象 的 定义 ， 不 然 有 
ee 找 不 到 该 对 象 的 类 的 定义 ， 而 返回 不 正确 
结果 。 

可 以 看 到 ， 对 象 序列 化 后 ， 存 储 的 只 是 对 象 的 属性 。 类 是 由 属性 和 
方法 组 成 的 ， 而 对 象 则 是 属性 的 集合 ， 由 同一 个 类 生成 的 不 同 对 象 ， 拥 
有 各 自 不 同 的 属性 ， 但 共享 了 类 的 代码 空间 中 方法 区 域 的 代码 。 


1 对 象 的 >” 


我 们 需要 更 深入 地 了 解 这 种 机 制 ， 看 对 象 的 “本 。 对 象 是 什么 ? 对 
象 在 PHP 中 也 是 变量 的 一 种 ， 所 以 先 看 PHP 源 码 中 对 变量 的 定义 : 








#zend/zend.h 

typedef union zvalue value { 
long lval:; /*long value*/ 
double dval; /*double value*/ 
struct { 

char*val; 

int len:; 


} str; 
HashTable*ht; /*hash table value*/ 
e object value obj: 

} zvalue_value: 





zvalue value， 就 是 PHP 底 层 的 变量 类 型 ，zend object value obj 
就 是 变量 中 的 一 个 结构 。 接 着 看 对 象 的 底层 实现 。 


在 PHP5 中 ， 对 象 在 底层 的 实现 是 采取 “属性 数组 + 方法 数组 ”来 实现 
的 。 可 以 简单 地 理解 为 PHP 对 象 在 砍 层 的 存储 如 图 1-1 所 示 。 











/| 类 属性 


ET 








| 自 定义 方法 表 


图 1-1 对 象 的 组 成 


对 象 在 PHP 中 是 使 用 一 种 zend_object_value 结 构 体 来 存储 的 。 对 
象 在 ZEND (PHP 底 层 引 擎 ， 类 似 Java 的 JVM) 中 的 定义 如 下 : 





#zend/zend.h 
1 stru 内 zend object { 
zend class entry*ce; // 这 里 就 是 类 入 
HashTable* propert ies; // 属 福 组 成 的 [ashTable 
HashTable*guards; /* pro otects from get/set....recurs Sf 
} zend_object; 








ce 是 存储 该 对 象 的 类 结构 ， 在 对 象 初始 化 时 保存 了 类 的 入 口 ， 相 当 





于 类 指针 的 作用 。prop ” erties 是 一 个 HashTable， 用 来 存放 对 象 属性 。 
guards 用 来 阻止 递归 调用 。 


类 的 标准 方法 在 zend/zend_object_handlers.h 文 件 中 定义 ， 有 具体 实 
现 则 是 在 zend/zend 


object_handlers. c 文 件 中 。 关 于 PHP 变 量 的 存储 结构 的 底层 实现 ， 
将 在 第 7 章 中 进行 更 深入 的 介绍 。 


通过 对 上 述 源 代码 的 简单 阅读 ， 可 以 更 清晰 地 认识 到 对 象 也 是 一 种 
很 普通 的 变量 ， 不 同 的 是 其 携带 了 对 象 的 属性 和 类 的 入 口 。 








11.3 潭 当 与 效 午 


对 象 是 什么 ， 我 们 不 好 理解 ， 也 不 容易 回答 ， 但 是 我 们 知道 数组 是 
什么 。 数 组 的 概念 比较 简单 。 可 以 拿 数 组 和 对 象 对 比 来 帮助 我 们 理解 对 
象 。 对 象 转化 为 数组 ， 数 组 也 能 转换 成 对 象 。 数 组 是 由 键 值 对 数据 组 成 
的 ， 数 组 的 键 值 对 和 对 象 的 属性 /属性 值 对 十 分 相似 。 对 象 序列 化 后 和 
数组 序列 化 后 的 结果 是 怀 人 的 相似 。 如 下 面 的 代码 所 示 : 





$student arr=array (' name' =>' Tom' ，' gender' =>' male’ ) ， 
echon \ nr" 


| 
echo serialize ($student arr); 





输出 为 : 


可 以 很 清楚 地 看 出 ， 对 象 和 数组 在 内 容 上 一 模 一 样 ! 


而 对 象 和 数组 的 区 别 在 于 : 对 象 还 有 个 指针 ， 指 同 了 它 所 属 的 类 。 
在 对 student 对 象 序列 化 时 ， 我 们 看 到 了 “person” 这 几 个 字符 ， 这 个 标识 
符 就 标志 了 这 个 对 象 归属 于 person 类 ， 故 在 取出 这 个 对 象 后 ， 可 以 立即 
人 

从 











1.1.4 ”对象 与 类 


在 前 面 代码 中 定义 了 一 个 类 ， 并 创建 了 这 个 类 的 对 象 ， 把 前 面 产 生 
的 对 象 作为 这 个 新 对 象 的 一 个 属性 ， 完 整 代码 如 代码 清单 1-1 所 示 。 


代码 清单 1-1 object.php 





=? php 

class person { 

public $ name; 

public $ gender:; 

public function say 《 

echo$ this->name, "\tis", $this->gender, "\r\n"; 
} 


} 

class family { 

public $ people: 

public $ location; 

public function construct ($p, $loc) { 
$ this->people=$p; 
$this->1location=$ 1oc; 


上 
$student=new person (); 
$student->name=’ Tom' ; 
$student->gender=’ male' ; 
$student->say () ; 

$tom=new family ($student, ' peking’ ); 
echo serialize ($student); 





$student arr=array (’ name' =>' Tom’ , ' gender’' =>"' male’ ) ; 
echo" \n"; 

echo serialize Student arr) ; 

print— rt 

echo" \n 


echo serialize ($tom); 





输出 结果 如 下 : 





Tom is male 
0: 6: "person" 2: {s: 4: "name"; s: 3: "Tom"; s: 6: "gender"; s: 4: "male"; } 
a: 2: {s: 4: "name": s: 3: "Tom": s: 6: "gender"; s: 4: "male"; } 

family Object 

( 


[people]=>person Object 
( 


[name]=>Tom 
[gender]=>male 

) 

[location]=>peking 

) 

0: 6: "family": 2: {s: 6: "people"; 0: 6: "person": 2: {s: 4: "name"; s: 3: "Tom"; s: 6: "gender"; s: 4: "male"; } s: 8: " 
location"; s: 6: "peking"; } 





可 以 看 出 ， 序 列 化 后 的 对 象 会 附带 所 属 的 类 名 ， 这 个 类 名 保证 此 对 
象 能 够 在 执行 类 的 方法 (也 是 自己 所 能 执行 的 方法 ) 时 ， 可 以 正确 地 找 
到 方法 所 在 的 代码 空间 ( 即 对 象 所 拥有 的 方法 存储 在 类 里 ) 。 男 外 ， 当 
0 序列 化 该 对 象 时 也 会 对 引用 对 象 
进行 序列 化 。 


基于 如 上 的 分 析 ， 可 以 总 结 出 对 象 和 类 的 概念 以 及 二 者 之 间 的 关 


系 : 


类 是 定义 一 系列 属性 和 操作 的 模板 ， 而 对 象 则 把 属性 进行 具体 化 ， 
然后 交 给 类 处 理 。 


对 象 束 是 数据 ， 对 象 本 号 不 包含 方法 。 但 是 对 象 有 一 个 “指针 ” 指 问 
一 个 类 ， 这 个 类 里 可 以 有 方法 。 


方法 描述 不 同属 性 所 导致 的 不 同 表现 。 


类 和 对 象 是 不 可 分 割 的 ， 有 对 象 就 必定 有 一 个 类 和 其 对 应 ， 否 则 这 
个 对 象 也 就 成 了 没有 亲人 的 孩子 (但 有 一 个 特殊 情况 存在 ， 就 是 由 标量 
进行 强制 类 型 转换 的 object， 没 有 一 个 类 和 它 对 应 。 此 时 ，PHP 中 一 个 
称 为 “孤儿 ”的 stdClass 类 就 会 收留 这 个 对 象 )。 


理解 了 以 上 四 个 概念 ， 结 合 现 实 世 界 从 实现 和 存储 理解 对 象 和 类 ， 
ee 
界 的 类 了 。 


如 果 需 要 一 个 类 ， 要 从 客观 世界 抽象 出 一 套 规律 ， 就 得 总 结 这 类 事 
物 的 共性 ， 并 且 让 它 可 以 与 其 他 类 进行 区 分 。 而 这 个 区 分 的 依据 就 是 属 
性 和 方法 。 区 分 的 办 法 殊 是 实例 化 出 一 个 对 象 ， 古 又 子 是 号 ， 拉 出 来 但 


起 。 























现在 ， 你 是 否 对 “日 马 非 号” 这 个 典故 有 了 新 的 认识 ? 


1.2 ”魔术 方法 的 应 用 


魔术 方法 是 以 两 个 下 画 线 “ 开 头 、 有 具有 特殊 作用 的 一 些 方法 ， 可 以 
看 做 PHP 的 “语法 糖 ”。 


语法 糖 指 那些 没有 给 计算 机 语言 深 加 新 功能 ， 而 只 是 对 人 类 来 说 
是 熏 密 的 语法 。 语 法 糖 往往 给 程序 员 提 供 了 更 实用 的 编码 方式 或 者 一 
些 拷 巧 性 的 用 法 ; 有 益 村 更 好 的 编码 风格 ， 使 代码 更 易 读 。 不 过 其 并 没 
有 给 语言 添加 什么 新 东西 。PHP 里 的 引用 、SPL 等 都 属于 语法 糖 。 


实际 上 ， 在 1.1 节 代码 中 就 涉及 糜 术 方法 的 使 用 。family 类 中 的 
constmct 广 法 就 是 一 个 祭 准 魔术 方法 这 个 魔术 方法 又 称 构造 方法 。 
有 构造 方法 的 类 会 在 每 次 创建 对 象 时 先 调用 此 方法 ， 所 以 非常 适合 
用 对 象 之 前 做 一 些 初始 化 工作 。 因此 ， 这 个 方法 往往 用 于 类 进行 初始 化 
时 执行 一 些 初 始 化 操作 ， 如 给 属性 赋值 、 连 接 数据 库 等 。 


以 代码 清单 1-1 所 示 代 码 为 例 ，family 中 的 construct 方 法 主要 做 的 事 
情 束 是 在 创建 对 象 的 同时 对 属性 赋值 。 也 可 以 这 么 使 用 : 











$ tol w fam I Ost udenbe Pek 
$ tom 和 ople->say () ; 





这 样 做 就 不 需要 在 创建 对 象 后 再 去 赋值 了 。 有 构造 方法 就 有 对 应 的 
析 构 方法 ， 即 destruct 方 法 ， 析 构 方 法 会 在 某 个 对 象 的 所 有 引用 都 被 市 
除 ， 或 者 当 对 象 被 显 式 销毁 时 执行 。 这 两 个 方法 是 常见 也 是 最 有 用 的 魔 
术 方 法。 
1.2.1 ”set 和 get 方 法 

set 和 get 是 两 个 比较 重要 的 魔术 方法 ， 如 代码 清单 1-2 所 示 。 


代码 清单 1-2 magic.php 








a=new 


echo $a->big:; 





运行 这 段 代 码 会 怎样 呢 ? 结果 报错 如 下 : 





Fatal error: Cannot access private property Account: $user in G: \bak\temp\tempcode\sg.php on line 7 





所 报错 误 大 致 是 说 ， 不 能 访问 Account 对 象 的 私有 属性 user。 在 代码 
清单 1-2 的 类 定义 里 增加 以 下 代码 ， 其 中 使 用 了 set 魔 术 方 法 。 





ic function get ($name 
if (! isset ($this-> $name)) { 





再 次 运行 ， 看 到 正常 输出 ， 没 有 报错 。 在 类 里 以 两 个 下 男 线 开头 的 
方法 都 属于 魔术 方法 除非 是 你 自 定义 的 ) ， 它 们 是 PHP 中 的 内 置 方 
法 ， 有 特殊 含义 。 手 册 里 把 这 两 个 方法 归 到 重 载 。 


PHP 的 重 载 和 Java 等 语言 的 重 载 不 同 。Java 里 ， 重 载 指 一 个 类 中 可 
以 定义 参数 列表 不 同 但 名 字 相 同 的 多 个 方法 。 比 如 ，Java 也 有 构造 函 
数 ，Java 人 允许 有 多 个 构造 函数 ， 只 要 保证 方法 签名 不 一 样 就 行 ， 而 PHP 
则 在 一 个 类 中 只 人 允许 有 一 个 构造 函数 。 


PHP 提 供 的 “ 重 载 ? 指 动态 地 “创建 ?类 属性 和 方法 。 因 此 ，set 和 get 方 
法 被 归 到 重 载 里 。 


这 里 可 以 直观 看 到 ， 大 类 中 定义 了 set 和 get 这 一 对 魔术 方法 ， 那 么 
当 给 对 象 属性 赋值 或 者 取 值 时 ， 即 使 这 个 属性 不 存在 ， 也 不 会 报错 ， 一 
定 程度 上 增强 了 程序 的 健壮 性 。 


我 们 注意 到 ， 在 account 类 里 ，user 属 性 的 访问 权限 是 私有 的 ， 私 有 
属性 意味 着 这 个 属性 是 类 的 “私有 财产 ?”， 只 能 在 类 内 部 对 其 进行 操作 。 
如 果 没 有 set 这 个 魔术 方法 ， 直 接 在 类 的 外 部 对 属性 进行 赋值 操作 是 会 报 
错 的 ， 只 能 通过 在 类 中 定义 一 个 public 的 方法 ， 然 后 在 类 外 调用 这 个 公 
开 的 方法 进行 属性 读 写 操作 。 




















现在 有 了 这 两 个 魔术 方法 ， 是 不 是 对 私有 属性 的 操作 变 得 更 方便 了 
呢 ? 实 际 上 ， 并 没有 什么 奇怪 的 ， 因 为 这 两 个 方法 本 里 就 是 public 的 。 
它们 和 在 对 外 的 public 方 法 中 操作 private 属 性 的 原理 一 样 。 只 不 过 这 对 
魔术 方法 使 其 操作 更 简单 ， 不 需要 显 式 地 调用 一 个 public 的 方法 ， 因 为 
这 对 魔术 方法 在 操作 类 变量 时 是 自动 调用 的 。 当 然 ， 也 可 以 把 类 属性 定 
义 成 public 的 ， 这 样 就 可 以 随意 在 类 的 外 部 进行 读 写 。 不 过 ， 如 果 只 是 
为 了 方便 ， 类 属性 在 任意 时 候 都 定义 成 pub lic 权 限 显然 是 不 合适 的 ， 也 
不 符合 面 癌 对 象 的 设计 思想 。 








1.2.2 ”call 和 callStatic 方 法 


如 何 防止 调用 不 存在 的 方法 而 出 错 ? 一 样 的 道理 ， 使 用 call 魔 术 重 
载 方法 。 


call 方 法 原型 如 下 : 





mixed call (string$ name, array $arguments) 





当 调 用 一 个 不 可 访问 的 方法 (如 未 定义 ， 或 者 不 可 见 ) 时 ， 
call () 会 被 调用 。 其 中 name 参 数 是 要 调用 的 方法 名 称 。arguments 参 数 
是 一 个 数组 ， 包 含 着 要 传递 给 方法 的 参数 ， 如 下 所 示 : 





public function call ($name, Bargunents) { 
switch (count ($arguments) ) 


Geho Sarou ments[0]* $arguments[1], PHP_ EOL:; 
brea 


ca Ee 
echo array_sum ($arguments) , PHP_ EOL:; 


defa aul 
echo . ra ， PHP_ EOL; 
bre 


a (5Y : 
$a->make (5, 6); 





以 上 代码 模拟 了 类 似 其 他 语言 中 的 根据 参数 类 型 进行 重 载 。 跟 call 
方法 配套 的 魔术 方法 是 callStatic。 当 然 ， 使 用 魔术 方法 “防止 调用 不 存在 
的 方法 而 报错 ?， 并 不 是 魔术 方法 的 本 意 。 实 际 上 ， 魔 术 方 法 使 方法 的 
动态 创建 变 为 可 能 ， 这 在 MVC 等 框架 设计 中 是 很 有 用 的 语法 。 假 设 一 
个 控制 艺 调 用 了 不 存在 的 方法 ， 那 么 只 要 定义 了 call 魔 术 方 法 ， 就 能 友 
好 地 处 理 这 种 情况 。 


试 着 理解 代码 清单 1-3 所 示 代 码 。 这 段 代 码 通过 使 用 callStatic 这 一 魔 
术 方 法 进行 方法 的 动态 创建 和 延迟 绑 定 ， 实 现 一 个 简单 的 ORM 模 型 。 


代码 清单 1-3 simpleOrm.php 





abstract class ActiveRecord { 
protected static$ table 
protecte ed$fieldvalues; 

p 


ot 


static function fi ndpyTd ($id) { 
ot fro 


."where id=$id"; 

return self: createDomain ($query); 

} 

function get ($fieldname) { 
return$this->fieldvalues[ $fieldname]: 


} 
static function callStatic ($method, S$args) { 
$field=preg_ replace (' /“findBy (\w*) $/’,' $ {1}', $method); 


$query="select*from" 

.Static: $ table 

."where $field=’ $args[0]’ "; 

return self: createDomain ($query); 

private static function createDomain ($query) { 
$klass=get_ called class (); 
$domain=new $ klass () ; 
$domain->fieldvalues=array (); 
$domain->select=$ query; 

foreach ($klass: $fields as$field=> $type) { 
$domain->fieldvalues[ $field]=’ TODO: set from sql result’; 
return$ domain; 

上 

上 

Class Customer extends ActiveRecord { 

protected static$ table=’ custdb' ; 

protected static$fields=array ( 

“id Se nt 

' email’ =>"' varchar’ ， 

' lastname’ =>’ varchar’ 

2 

} 

Class Sales extends ActiveRecord { 

protected static$ table=’ salesdb' ; 

protected static$fields=array ( 

Wi 1 

' item’ =>’ varchar’ ， 

WE 

); 

} 

assert ("select*from custdb where id=123"== 
Customer: findById (123) ->select); 

assert ("TODO: set from sql result"== 

Customer: findById (123) ->email); 

assert ("select*from salesdb where id=321"== 
Sales: findById (321) ->Sselect) ; 

assert ("select*from custdb where Lastname=’' Denoncourt "== 
Customer: findByLastname (’ Denoncourt’' ) ->Select) ; 





再 举 个 类 似 的 例子 。PHP 里 有 很 多 字符 串 函 数 ， 假 如 要 先 过 滤 字 符 
捉 首 尾 的 空格 ， 再 求 出 字符 串 的 长 度 ， 一 般 会 这 么 写 : 





strlen (trim ($str) ); 





如 果 要 实现 JS 里 的 链 式 操作 ， 比 如 像 下 面 这 样 ， 应 该 怎么 实现 ? 





$str->trim () ->strlen () 








很 简单 ， 先 实现 一 个 String 类 ， 对 这 个 类 的 对 象 调用 方法 进行 处 理 
时 ， 和 触发 call 魔 术 方 法 ， 接 着 执行 call _user_func 即 可 。 


1.2.3 toString 方法 


再 看 另外 一 个 魔术 方法 TOstring (在 这 里 故意 这 么 写 ， 是 要 说 明 
PHP 中 方法 不 区 分 大 小 写 ， 但 实际 开发 中 还 需要 注意 规范 ) 。 


当 进 行 测试 时 ， 需 要 知道 是 否 得 出 正确 的 数据 。 比 如 打印 一 个 对 象 
时 ， 看 看 这 个 对 象 都 有 哪些 属性 ， 其 值 是 什么 ， 如 果 类 定义 了 toString 
方法 ， 束 能 在 测试 时 ，echo 打 印 对 象 体 ， 对 象 束 会 自动 调用 它 所 属 类 定 
义 的 toString 方 法 ， 格 式 化 输出 这 个 对 象 所 包含 的 数据 。 如 果 没 有 这 个 
方法 ， 那 么 echo 一 个 对 象 将 报错 ， 例 如 “Catchable fatal error: Object of 
class Account could not be converted to string” 语 法 错误 ， 实 际 上 这 是 一 个 
类 型 匹配 失败 错误 。 不 过 仍然 可 以 用 print_r〈() 和 var_dump《〈) 函数 
输出 一 个 对 象 。 当 然 ，toString 是 可 以 定制 的 ， 所 提供 的 信息 和 样式 更 
丰富 ， 如 代码 清单 1-4 所 示 。 


代码 清单 1-4 magic 2.php 




















public $ user=1; private$ pwd=2; 
// 自 定义 的 格式 化 输出 方法 
public function { 


() 
return'" 当 前 对 象 的 用 户 名 是 {$this->user} ， 密 码 是 {$this- 之 pwd} "; 

















运行 这 段 代 码 发 现 ， 使 用 toString 方 法 后 ， 输 出 的 结果 是 可 定制 

的 ， 更 易于 理解 。 实 际 上 ，PHP 的 toString 魔 术 方 法 的 设计 原型 来 源 于 
Java。JjJava 中 也 有 这 么 一 个 方法 ， 而 且 在 Java 中 ， 这 个 方法 被 大 量 使 
用 ， 对 于 调试 程序 比较 方便 。 实 际 上 ，toString 方 法 也 是 一 种 序列 化 ， 
我 们 知道 PHP 自 带 serialize/unserialize 也 是 进行 序列 化 的 ， 但 是 这 组 函数 
序列 化 时 会 产生 一 些 无 用 信息 ， 如 属性 字符 串 长 度 ， 造 成 存储 空间 的 无 
谓 浪 费 。 因 此 ， 可 以 实现 自己 的 序列 化 和 反 序 列 化 方法 ， 或 者 json_ 
encode/json ”decode 也 是 一 个 不 错 的 选择 为 什么 直接 echo 一 个 对 象 就 会 
报 语法 错误 ， 而 如 果 这 个 对 象 实现 toString 方 法 后 就 可 以 直接 输出 呢 ? 
原因 很 简单 ，echo 本 来 可 以 打印 一 个 对 象 ， 而 且 也 实现 了 这 个 接口 ， 但 
是 PHP 对 其 做 了 个 限制 ， 只 有 实现 toString 后 才 允 许 使 用 。 从 下 面 的 PHP 
源 代码 里 可 以 得 到 验证 : 











ZEND_VM HANDLER (40, ZEND ECHO, CONST | TMP | VAR | CV, ANY) 

{ 

zend op*opline=EX (opline) ; 

zend_free_ op free_opi:;: 

zval z_copy: 

Zval*z=GET_ OP1 ZVAL_PTR (BP_VAR_R) 

// 此 处 的 代码 预 留 了 把 对 象 转换 为 字符 串 的 接口 

if (OP1 TYPE! =IS CONST& & 

Z_TYPE_P (z) ==IS OBJECT&&Z 0BJ HT_P (z) ->get method! =NULL&& 
zend_std_ cast object tostring (z, &z_ copy, IS_ STRING TSRMLS CC) ==SUCCESS) { 
zend_ print variable (&z copy): 

zval dtor (&z copy): 

} else { 

zend_ print variable (z); 

} 

FREE_ OP1 () 

ZEND_VM_NEXT_ OPCODE () 

: 








由 此 可 见 ， 魔 术 方 法 并 不 神奇 。 

有 比较 才 有 认 知 。 最 后 ， 针 对 本 世代 码 给 出 一 个 Java 版 本 的 代码 ， 
(0 比 两 种 语言 中 重 载 和 魔术 方法 的 异同 ， 如 代码 清单 1- 
95HT 不 。 


代码 清单 1-5 Account.java 





import org.apache.commons.1lang3.builder.ToStringBuilder; 
/x 

* 类 的 重 载 演示 Java 版 本 

*Q@author wfox 

*@date@verson 

ba 

public class Account { 

private String user; // 用 户 名 

private String pwd; // 密 码 

public Account () { 

System.out.println ("构造 函数 ") ; 

} 

public Account (String user, String pwd) { 
System.out.println(" 重 载 构造 函数 ") ; 

System.out.println (user+"—"+pwd) ; 

} 
public void say (String user) { 
System.out.println ("用 户 是 : "+user) ; 
上 
public void say (String user，String pwd) { 
System.out.println ("用 户 : "+user) ; 

System.out .println ("密码 "+pwd); 

不 

public String getUser () { 

return USser; 

由 

public void setUser CString user) { 
this.user=user:; 

上 

public String getPwd () { 

return pwd; 

} 

public void setPwd (String pwd) { 

} 

@override 

public String toString () { 

return ToStringBuilder.reflectionToString (this) ; 
} 

public static void main (String.….) { 

Account account=new Account () ; 

account .setUser (" 张 三 ") ，; 

account .setPwd ("123456" ) ; 

account .Say (" 李 四 ") ; 

account .Say (" 王 五 "，"123") ; 

System.out.println (account) ; 

} 

} 


二 一 

































































运行 上 述 代 码 ， 输 出 如 图 1-2 所 示 。 


<terminated> Account Uave Application] E\devVjava\bin\Vavaw.exwe (2011-5-14 上 午 02:33:00) 





popular .Account@538daa[user= 张 三 ,pwd=123456] 
图 1-2 Java 里 的 构造 方法 和 重 载 演示 
可 以 看 出 ，Java 的 构造 方法 比 PHP 好 用 ，PHP 由 于 有 了 set/get 这 一 对 











魔术 方法 ， 使 得 动态 增加 对 象 的 属性 字段 变 得 很 方便 ， 而 对 Java 来 说 ， 
要 实现 类 似 的 效果 ， 就 不 得 不 借助 反射 API 或 直接 修改 编译 后 字 节 人 码 的 
方式 来 实现 。 这 体现 了 动态 语言 的 优势 ， 简 单 、 灵 活 。 





1.3 继承 与 多 态 


面向 对 象 的 优势 在 于 类 的 复 用 。 继 承 与 多 态 都 是 对 类 进行 复 用 ， 它 
们 一 个 是 类 级 别 的 复 用 ， 一 个 是 方法 级 别 的 复 用 。 提 到 继承 必 提 组 合 

二 者 有 何 异同 ? PHP 到 底 有 没有 多 态 ? 若 没 有 ， 则 为 什么 没有 ? 有 的 

话 ， 和 其 他 语言 中 的 多 态 又 有 什么 区 别 ? 这 些 都 是 本 节 所 要 讲述 的 内 

容 。 


1.3.1 类 的 组 合 与 继承 

在 1.1 节 的 代码 中 定义 了 两 个 类 ， 一 个 是 person， 一 个 是 family; 在 
family 类 中 创建 person 类 中 的 对 象 ， 把 这 个 对 象 视 为 family 类 的 一 个 属 
性 ， 并 调用 它 的 方法 处 理 问题 ， 这 种 复 用 方式 叫 “ 组 合 ?。 还 有 一 种 复 用 
方式 ， 驶 是 继承 。 

类 与 类 之 间 有 一 种 父 与 子 的 关系 ， 子 类 继承 父 类 的 属性 和 方法 ， 称 
为 继承 。 在 继承 里 ， 子 类 拥有 父 类 的 方法 和 属性 ， 同 时 子 类 也 可 以 有 自 
己 的 方法 和 属性 。 

可 以 把 1.1 节 的 组 合用 继承 实现 ， 如 代码 清单 1-6 所 示 。 


代码 清单 1-6 family extends.php 


























<? php 

class person { 

public $name=’ Tom’ ; public$ gender:; 
static $money=10000; 

public function construct () { 
echo”' 这 里 是 父 类 '，PHP_EOL; 

} 


public function say () { 
echo$ this->name, "\tis", $this->gender, "\r\n"; 
} 


class family extends person { 

public $name; public$ gender; public $ age; 
static $money=100000; 

public function construct () { 

parent: construct () ; // 调 用 父 类 构造 方法 
echo' 这 里 是 子 类 ' ，PHP_EOL， 

} 

















public function say () { 

parent: say ( 

echo$ this- Snane, NM 全 >gender, ", and 
is\t", $this->age, PHP_ EO 


public function cry () { 

echo parent: $money, PHP_ EOL:; 

echo' %>_ <=%’ , PHP_ EOL:; 

echo self: oney, PHP_EOL; // 调 用 自身 构造 方法 
echo’ (*” 

} 

} 

$ poor=new family OO; 

$poor->name= Lee 

$ poor->gender=" female, ; 


























从 上 面 代码 中 可 以 了 解 继承 的 实现 。 在 继承 中 ， 用 parent 指 代 父 
类 ， 用 self 指 代目 身 。 使 用 *: ”运算 符 〈 苑 围 解析 操作 符 ) 调用 父 类 的 
| 
忌 用 混 请 。 


既然 提 到 静态 ， 就 再 强调 一 点 ， 如 果 声 明 类 成 员 或 方法 为 static， 就 
可 以 不 实例 化 类 而 直接 访问 ， 同 时 也 就 不 能 通过 一 个 对 象 访问 其 中 的 静 
态 成 员 《〈 静 态 方法 除外 ) ， 也 不 能 用 “: ?访问 一 个 非 静 态 方 法 。 比 如 ， 
把 上 例 中 的 poor->cry 〈() ; 换 成 poor: cry () ， 按 照 这 个 规则 ， 应 该 
是 要 报错 的 。 可 能 试验 时 ， 并 没有 报错 ， 而 且 能 够 正确 输出 。 这 是 因为 
用 “: ”方式 调用 一 个 非 静态 方法 会 导致 一 个 E_STRICT 级 别 的 错误 ， 而 
这 里 的 PHP 设 置 默认 没有 开局 这 个 级 别 的 报错 提示 。 打 开 PHP 安 闭 目 录 
下 的 php.ini 文 件 ， 设 置 如 下 : 











error_reporting=E_ALL |E_STRICT display_errors=on 





再 次 运行 ， 就 会 看 到 错误 提示 。 因 此 ， 用 “: ”访问 一 个 非 静 态 方法 
不 符合 语法 ， 但 PHP 仍 然 能 够 正确 地 执行 代码 ， 这 只 是 PHP 所 做 的 一 
个 “兼容 ?或 者 说 “让 步 ?。 在 开发 时 ， 设 置 最 严格 的 报错 等 级 ， 在 部 普 时 
可 适当 调 低 。 


组 合 与 继承 都 是 提高 代码 可 重用 性 的 手段 。 在 设计 对 象 模 型 时 ， 可 
以 按照 语义 识别 类 之 间 的 组 合 关系 和 继承 关系 。 比 如 ， 通 过 一 些 总 结 ， 
得 出 了 继承 是 一 种 “是 、 像 ”的 关系 ， 而 组 合 是 一 种 “需要 ”的 关系 。 利 用 
这 条 规律 ， 就 可 以 很 简单 地 判断 出 父 杀 与 儿子 应 该 是 继承 关系 ， 父 杀 与 
家 庭 应 该 是 组 合 关系 。 还 可 以 从 另外 一 个 角度 看 ， 组 合 偏重 整体 与 局 部 
的 关系， 而 继承 偏重 父 与 子 的 关系 ， 如 图 1-3 所 示 。 








图 1-3 继承 和 组 合 的 对 照 


从 方法 复 用 角度 考虑 ， 如 采 两 个 类 具有 很 多 相同 的 代码 和 方法 ， 可 
以 从 这 两 个 类 中 抽象 出 一 个 父 类 ， 提 供 公 共 方 法 ， 然 后 两 个 类 作为 子 
类 ， 提 供 个 性 方法 。 这 时 用 继承 语意 更 好 。 继 承 的 UML 图 如 图 1-4 所 
全 。 
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图 1-4 ”继承 的 UML 图 


而 组 合 就 没有 这 么 多 限制 。 组 合 之 间 的 类 可 以 关系 《体现 为 复 用 代 
码 ) 很 小 ， 甚 至 没有 关系 ， 如 图 1-5 所 示 。 


| ss WE 
外 method20 [一 加 method1() | “| 外 method20 
YmethodA() | Smethod3() methodB0 


图 1-5 组 合 的 UML 图 


然而 在 编程 中 ， 继 承 与 组 合 的 取舍 往往 并 不 是 这 么 直接 明了 ， 很 难 
说 出 二 者 是 “ 像 * 的 关系 还 是 “需要 ”的 关系 ， 甚 至 把 它 拿 到 现实 世界 中 建 
模 ， 还 是 无 法 决定 应 该 是 继承 还 是 组 合 。 那 应 该 怎么 办 呢 ?” 有 什么 标准 
吗 ? 有 的 。 这 个 标准 就 是 “ 低 粳 合 ”。 


耘 合 是 一 个 软件 结构 内 不 同 模块 之 间 互 连 程度 的 度量 ， 也 就 是 不 同 
模块 之 间 的 依赖 关系 。 


低 厢 合 指 模块 与 模块 之 间 ， 尽 可 能 地 使 模块 间 独 立 存 在 ;模块 与 模 














块 之 间 的 接口 尽量 少 而 简单 。 现 代 的 面 癌 对 象 的 思想 不 强调 为 真实 世界 
建 模 ， 变 得 更 加 理性 化 一 些 ， 把 目标 放 在 解 籼 上 。 


解 厢 是 要 解除 模块 与 模块 之 间 的 依赖 。 


按照 这 个 思想 ， 继 承 与 组 合 二 者 语义 上 难于 区 分 ， 在 二 者 均 可 使 用 
的 情况 下 ， 更 倾向 于 使 用 组 合 。 为 什么 呢 ? 继承 存在 什么 问题 呢 ? 


1) 继承 破坏 封 效 性 。 


比如 ， 定 义乌 类 为 父 类 ， 具 有 羽毛 属性 和 飞翔 方法 ， 其 子 类 天 鹅 、 
榴 子 、 能 马 等 继承 乌 这 个 类 。 显 然 ， 鸭 和子 和 马 不 需要 飞翔 这 个 方法 ， 
但 作为 子 类 ， 它 们 却 可 以 无 区 别 地 使 用 飞翔 这 个 方法 ， 显 然 破 坏 了 类 的 
封装 性 。 而 组 合 ， 从 语义 上 来 说 ， 要 优 于 继承 。 


2) 继承 是 紧 厢 合 的 。 


继承 使 得 子 类 和 父 类 捆绑 在 一 起 。 组 合 仅 通 过 唯一 接口 和 外 部 进行 
通信 ， 耦 合 度 低 于 继承 。 


3) 继承 扩展 复杂 。 


随 着 继承 层 数 的 增加 和 子 类 的 增加 ， 将 涉及 大 量 方法 重 写 。 使 用 组 
， 可 以 根据 类 型 约束 ， 实 现 动 态 组 合 ， 减 少 代码 。 


4) 不 恰当 地 使 用 继承 可 能 违反 现实 世界 中 的 逻辑 。 


比如 ， 人 作为 父 类 ， 雇 员 、 经 理 、 学 生 作 为 子 类 ， 可 能 存在 这 样 的 
问题 ， 经 理 一 定 是 雇员 ， 学 生 也 可 能 是 雇员 ， 而 使 用 继承 的 话 一 个 人 就 
无 法 拥有 多 个 角色 。 这 种 问题 归结 起 来 就 是 “角色 ”和 “权限 ”问题 。 在 权 
限 系 统 中 很 可 能 存在 这 样 的 问题 ， 经 理 权 利和 职位 大 于 主管 ， 但 出 于 分 
工 和 安全 的 考 夸 ， 经 理 没 有 权限 直接 操作 主管 所 负责 的 资源 ， 技 术 部 经 
理 也 没 权 限 直接 命令 市 场 部 主管 。 这 就 要 求 角色 和 权限 系统 的 设计 要 更 
灵活 。 不 恰当 的 继承 可 能 导致 逻辑 混乱 ， 而 使 用 组 合 就 可 以 较 好 地 解决 


这 个 问题 。 


当然 ， 组 合并 非 没有 缺点 。 在 创建 组 合 对 象 时 ， 组 合 需 要 一 一 创建 
局 部 对 象 ， 这 一 定 程度 上 增加 了 一 些 代码 ， 而 继承 则 不 需要 这 一 步 ， 因 
为 子 类 目 动 有 了 父 类 的 方法 ， 如 代码 清单 1-7 所 示 。 
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代码 清单 1-7 mobile.php 





<=? php 
// 继 承 拥 有 比 组 合 更 少 的 代码 量 
a 


bmw=new bmw:; 
$bmw->addoil (); 
z=ne 


benz=new benz a 
$benz->addoil (); 





显然 ， 组 合 比 继承 增加 了 代码 量 。 组 合 还 有 其 他 的 一 些 缺 点 ， 不 过 
忆 体 说 来 ， 是 优点 大 于 缺 反 。 


继承 最 大 的 优点 就 是 扩展 简单 ， 但 是 其 缺点 大 于 优点 ， 所 以 在 设计 
时 ， 需 要 慎重 考虑 。 那 应 该 如 何 使 用 继承 呢 ? 


精心 设计 专门 用 于 被 继承 的 类 ， 继 承 树 的 抽象 层 应 该 比较 稳定 ， 一 
版 不 要 多 于 三 层 。 


对 于 不 是 专门 用 于 被 继承 的 类 ， 茶 止 其 被 继承 ， 也 就 是 使 用 final 修 
饰 符 。 使 用 final 修 饰 符 既 可 防止 重要 方法 被 非法 履 写 ， 叉 能 给 编辑 器 寻 
找 优化 的 机 会 。 

优先 考虑 用 组 合 关 系 提高 代码 的 可 重用 性 。 

子 类 是 一 种 特殊 的 类 型 ， 而 不 只 是 父 类 的 一 个 角色 。 

子 类 扩展 ， 而 不 是 履 兰 或 者 使 父 类 的 功能 失效 。 

展 层 代码 多 用 组 合 ， 顶 层 / 业 务 层 代 码 多 用 继承 。 底 层 用 组 合 可 以 


提高 效率 ， 避 免 对 象 及 肿 。 顶 层 代码 用 继承 可 以 提高 灵活 性 ， 让 业务 使 
用 更 方便 。 














思考 题 ”设计 一 个 log 类 ， 需 要 用 到 MySQL 中 的 CURD 操 作 ， 是 应 
该 使 用 继承 呢 还 是 组 合 ? 请 给 出 理由 。 


继承 并 非 一 无 是 处 ， 而 组 合 也 不 是 完美 无 缺 的 。 如 果 既 要 组 合 的 灵 
活 ， 又 要 继承 的 代码 简 活 ， 能 做 到 吗 ? 


这 是 可 以 做 到 的 ， 璧 如 多 重 继承 ， 就 具有 这 个 特性 。 多 重 继承 里 一 
个 类 可 以 同时 继承 多 个 父 类 ， 组 合 两 个 父 类 的 功能 。C++ 里 就 是 使 用 的 
这 种 模型 来 增强 继承 的 灵活 性 的 ， 但 是 多 重 继承 过 于 灵活 ， 并 且 会 珊 
来 “ 禾 形 问题 ?”， 故 为 其 使 用 带 来 了 不 少 困 难 ， 模 型 变 得 复杂 起 来 ， 因 此 
在 大 多 数 语言 中 ， 都 放 莽 了 多 重 继承 这 一 模型 。 


多 重 继 承 太 复杂 ， 那 么 还 有 其 他 方式 能 比较 好 地 解决 这 个 问题 吗 ? 
PHP5.4 引 入 的 新 的 语法 结构 Traits 就 是 一 种 很 好 的 解决 方案 。Traits 的 思 
想来 源 于 C++ 和 Ruby 里 的 Mixin 以 及 Scala 里 的 Traits， 可 以 方便 我 们 实现 
对 象 的 扩展 ， 是 除 extend、implements 外 的 另外 一 种 扩展 对 象 的 方式 。 
Traits 既 可 以 使 单 继 承 模式 的 语言 获得 多 重 继承 的 灵活 ， 又 可 以 避免 多 
重 继承 带 来 的 种 种 问题 。 


1.3.2 ”各 种 语言 中 的 多 态 


多 态 确 切 的 含义 是 : 同一 类 的 对 象 收 到 相同 消息 时 ， 会 得 到 不 同 的 
结果 。 而 这 个 消 妃 是 不 可 预测 的 。 多 态 ， 顾 名 思 义 ， 就 是 多 种 状态 ， 也 
就 是 多 种 绪 


以 Java 为 例 ， 由 于 Java 是 强 类 型 语言 ， 因 此 变量 和 函数 返回 值 是 有 
状态 的 。 比 如 ， 实 现 一 个 add 函 数 的 功能 ， 其 参数 可 能 是 两 个 int 型 整 
数 ， 也 可 能 是 两 个 float 型 浮 点 数 ， 而 返回 值 可 能 是 整 型 或 者 浮 点 型 。 在 
这 种 情况 下 ，add 函 数 是 有 状态 的 ， 它 有 多 种 可 能 的 运行 结果 。 在 实际 
使 用 时 ， 编 译 器 会 上 自动 匹配 适合 的 那个 函数 。 这 属于 函数 重 载 的 概念 。 
需要 说 明 的 是 ， 重 载 并 不 是 面 癌 对 象 里 的 东西 ， 和 多 态 也 不 是 一 个 概 
念 ， 它 属于 多 态 的 一 种 表现 形式 。 


多 态 性 是 一 种 通过 多 种 状态 或 阶段 摘 述 相同 对 象 的 编程 方式 。 它 的 
真正 意义 在 于 : 实际 开发 中 ， 只 要 关心 一 个 接口 或 基 类 的 编程 ， 而 不 必 
关心 一 个 对 象 所 属于 的 具体 类 。 

很 多 地 方 会 看 到 “PHP 没 有 多 态 ” 这 种 说 法 。 事 实 上 ， 不 是 它 没 有 ， 
而 是 它 本 来 就 是 多 态 的 。PHP 作 为 一 门 脚 本 语言 ， 目 身 就 是 多 态 的 ， 所 
以 在 语言 这 个 级 别 上 ， 不 谈 PHP 的 多 态 。 在 PHP 官 方 手册 也 找 不 到 对 多 
态 的 详细 描述 。 


既然 说 PHP 没有 多 态 这 个 概念 〈 实 际 上 有 是 不 需要 多 态 这 个 概念 ) ， 
那 为 什么 又 要 讲 多 态 呢 ? 可 以 看 下 面 的 例子 ， 如 代码 清单 1-8 所 示 。 


代码 清单 1-8 Polymorphism.php 
































<? php 

class employee { 

protected function working () { 
echo' 本 方法 需 重 载 才能 运行 ′; 


class coder extends employee { 
public function working () { 
0 敲 人 代码; 


unct 
if (g 
echo 
} else { 
$obj->working () ; 


ion doprint ($obj) { 
et_class ($obj) ==’ employee’ ) { 
Error’; 


} 

} 

doprint (new teacher () ) ; 
doprint Cnew coder () ) ; 
doprint Cnew employee () ) ; 





通过 判断 传 入 的 对 象 所 属 的 类 不 同 来 调用 其 同名 方法 ， 得 出 不 同 结 
果 ， 这 是 多 态 吗 ? 如 果 站 在 C++ 角度 ， 这 不 是 多 态 ， 这 只 是 不 同类 对 象 
的 不 同 表现 而 已 。C++ 里 的 多 态 指 运行 时 对 象 的 具体 化 ， 指 同一 类 对 象 
调用 相同 的 方法 而 返回 不 同 的 结果 。 看 个 C++ 的 例子 ， 如 代码 清单 1-9 所 
示 。 








代码 清单 1-9 C++ 多 态 的 例子 





#include=cstdlib> 
#include=iostream> 
炎炎 











C++ 中 用 虚 函 数 实 现 多 态 











using namespace std; 
class father { 
public: 


father () : age (30) {cout 二 二 " 父 类 构造 法 ， "<<age<=<"\n"; } 
一 father () {cout<<" 父 类 析 构 "<<"\n"; 

void eat () {cout<<<" 父 类 吃饭 吃 三 斤 "< 之 <" i } 

virtual void run () {cout<=<=" T0000 二 <"\n"，} // 虚 函数 
protected: 

Int age: 


Clas son: public father { 

public: 

son() {cout<<" 子 类 构造 法 "<<"\n"; } 

一 Son () {cout<<" 子 类 析 构 "<<"\n"; } 

void eat () {cout<<" 儿 子 吃饭 吃 一 斤 "<<"\n"; } 
void run () {cout<<" ee | ne } 
void cry () {cout<<" 身 注 "<<" 

}; 


int main (int argc, char*argv[]) 


father*pf=new Son; 
pf->eat () 

pf->run OO); 

delete pf 

SyStem ("PAUSE"); 
return EXIT_ SUCCESS; 
站 








上 面 的 代码 首先 定义 一 个 父 类 ， 然 后 定义 一 个 子 类 ， 这 个 子 类 继承 
RN 通过 father*pf=new son; 语句 创建 
一 个 派生 类 〈 子 类 ) 对 象 ， 并 且 把 该 派生 类 对 象 赋 给 基 类 〈 父 类 ) 指 
针 ， 然 后 用 该 指针 访问 父 类 中 的 eat 和 run 方 法 。 图 1-6 所 示 是 运行 结果 。 


由 于 父 类 中 的 run 方 法 加 了 virtual 关 键 字 ， 表 示 该 函数 有 多 种 形态 ， 
可 能 被 多 个 对 象 所 拥有 。 也 就 是 说 ， 多 个 对 象 在 调用 同一 名 字 的 函数 时 
会 产生 不 同 的 效果 。 


这 个 例子 和 PHP 的 例子 有 什么 不 同 呢 ? C++ 的 这 个 例子 所 创建 的 对 
象 是 一 个 指 癌 父 类 的 子 对 象 ， 还 可 以 创建 更 多 派生 类 对 象 ， 然 后 上 转型 
为 父 类 对 象 。 这 些 对 象 ， 都 是 同一 类 对 象 ， 但 是 在 运行 时 ， 却 都 能 调用 

















到 派生 类 同名 函数 。 而 PHP 中 的 例子 则 是 不 同类 的 对 象 调用 。 








图 1-6 运行 结果 
由 于 PHP 是 弱 类 型 的 ， 并 且 也 没有 对 象 转型 机 制 ， 所 以 不 能 像 








C++ 或 者 Java 那 样 实 现 father $pf=new ”son; 把 派生 类 对 象 赋 给 基 类 对 
象 ， 然 后 在 调用 水 数 时 动态 改变 其 指 同 。 在 PHP 的 例子 中 ， 对 象 都 是 确 
定 的 ， 是 不 同类 的 对 象 。 所 以 ， 从 这 个 角度 讲 ， 这 还 不 是 真正 的 多 态 。 


代码 清单 1-8 所 示 代 码 通过 判断 对 象 的 类 属性 实现 “多 态 ”， 此 外 ， 
还 可 以 通过 接口 实现 多 态 ， 如 代码 清单 1-10 所 示 。 


代码 清单 1-10 ”通过 接口 实现 多 态 

















=? php 
interfac cmp yee el 
public fl nct rking (); 


class teacher implements employee { 
public function working “0 { 
} 


class Godot plen employee { 
U Ube 人 no C4 





这 是 多 态 吗 ?这 段 代码 和 代码 清单 1-8 相 比 没有 多 少 区 别 ， 不 过 这 
段 代码 中 doprint 函 数 的 参数 是 一 个 接口 类 型 的 变量 ， 符 合 “ 同 一 类 型 ， 
不 同 结果 ”这 一 条 件 ， 具 有 多 态 性 的 一 般 特 征 。 因 此 ， 这 是 多 态 。 


如 果 把 代码 清单 1-8 中 doprint 函 数 的 obj 参 数 看 做 一 种 类 型 〈 把 所 有 
弱 类 型 看 做 一 种 类 型 ) ， 那 如 可 以 认为 代码 清单 1-8 中 的 代码 也 是 一 种 


再 次 把 三 段 代 码 放 在 一 起 品味 ， 可 以 看 出 : 区 别 古 态 的 关键 








在 于 看 对 象 是 否 属于 同一 类 型 。 如 果 把 它们 看 做 同一 种 类 型 ， 调 用 相同 
的 函数 ， 返 回 了 不 同 的 结果 ， 那 么 它 就 是 多 态 ;， 否则， 不 能 称 其 为 多 

态 。 由 此 可 见 ， 弱 类 型 的 PHP 里 多 态 和 传统 强 类 型 语言 里 的 多 态 在 实现 
和 概念 上 是 有 一 些 区 别 的 ， 而 且 弱 类 型 语言 实现 起 多 态 来 会 更 简单 ， 更 


灵活 。 

本 节 解 决 了 什么 是 多 态 ， 什 么 不 是 多 态 的 问题 。 至 于 多 态 是 怎么 
现 的 ， 各 种 语言 的 策略 是 不 一 样 的 。 但 是 ， 最 终 的 实现 无 非 就 是 查 表 
判断 。 总 结 如 下 : 

多 态 指 同一 类 对 象 在 运行 时 的 具体 化 。 

PHP 语 言 是 弱 类 型 的 ， 实 现 多 态 更 简单 、 更 灵活 。 

类 型 转换 不 是 多 态 。 

PHP 中 父 类 和 子 类 看 做 “继父 ”和 “ 继 子 ”关系 ， 它 们 存在 继承 关系 ， 
但 不 存在 血缘 关系 。 因 此 子 类 无 法 向 上 转型 为 父 类 ， 从 而 失去 多 态 最 典 
型 的 特征 。 

多 态 的 本 质 就 是 让 ..….else， 只 不 过 实现 的 层级 不 同 。 








实 
和 














1.4 面 癌 接口 编程 


这 里 ， 首 先 强调 一 个 概念 ， 面 向 接口 编程 并 不 是 一 种 新 的 编程 范 
式 。 本 章 开头 提 到 的 三 大 范式 中 并 没有 提 到 面向 接口 。 其 次 ， 这 里 是 儿 
义 的 接口 ， 即 interface 关 键 字 。 广 义 的 接口 可 以 是 任何 一 个 对 外 提供 服 
务 的 出 口 ， 比 如 提供 数据 传输 的 0SB 接 口 、 淘 家 网 对 其 他 网 站 开放 的 支 
寺 宝 接口 。 


1.4.1 接口 的 作用 


接口 定义 一 套 规范 ， 描 述 一 个 “ 物 ” 的 功能 ， 要 求 如 果 现 实 中 
的 “ 物 ” 想 成 为 可 用 ， 束 必须 实现 这 些 基 本 功能 。 接 口 这 样 描述 上 自己: 


“对 于 实现 我 的 所 有 类 ， 看 起 来 都 应 该 像 我 现在 这 个 样子 ”。 


采用 一 个 特定 接口 的 所 有 代码 都 知道 对 于 那个 接口 会 调用 什么 方 
法 。 这 便 是 接口 的 全 部 含义 。 接 口 常用 来 作为 类 与 类 之 间 的 一 个 “ 协 
议 ”。 接 口 是 抽 象 类 的 变 体 ， 接 口中 所 有 方法 都 是 抽象 的 ， 没 有 一 个 有 
程序 体 。 接 口 除了 可 以 包含 方法 外 ， 还 能 包含 常量 。 


比如 用 接口 描述 发 动机 ， 要 求 机 动车 必须 要 有 "run” 功 能 ， 人 至 于 怎 
么 实现 《摩托 还 是 到 马 ) ， 应 该 是 什么 样 〈 前 驱 还 是 后 驱 ) ， 不 是 接口 
关心 的 。 因 为 接口 为 抽象 而 生 。 作 为 质 检 总 局 ， 要 判断 这 辆 车 是 否 合 
格 ， 只 要 按 “ 接 口 ?的 定义 一 条 一 条 验证 ， 这 辆 车 不 能 “run”， 那 它 就 是 废 
品 ， 不 能 通过 验收 。 但 是 ， 如 果 汽 车 实现 了 接口 中 本 来 不 存在 的 方法 
music， 并 不 认为 有 什么 问题 。 接 口 就 是 一 种 契约 。 因 此 ， 在 程序 里 ， 
接口 的 方法 必须 被 全 部 实现 ， 人 否则 将 报 fetal 错误 ， 如 代码 清单 1-11 所 
示 : 


























代码 清单 1-11 interface.php 


<? php 

interface mobile 

{ 

public function run() ; // 驱 动 方法 


public function fly () 


echo" 飞行 "; 
} 


} 

class car implements mobile { 
public function run () { 
echo" 我 是 汽车 \r \n"; 

} 

} 

class machine 

function demo (mobile$a) 


$a->fly () ; //mobile 接 口 是 没 有 这 个 方法 的 


tA 


$obj=new machine (); 
$obj->demo (new plain() ) ; // 运 行 成 功 
$obj->demo (new car() ) ; // 运 行 失败 





在 这 段 代码 里 ， 定 义 一 个 机 动车 接口 ， 其 中 含有 一 个 发 动机 功能 。 
然后 用 一 个 飞机 类 实现 这 个 接口 ， 并 增加 了 飞行 方法 。 最 后 ， 在 一 个 机 
械 检 测 类 中 对 机 动车 进行 测试 《用 类 型 约束 指定 要 测试 的 是 机 动车 这 个 
接口 ) 。 但 是 ， 此 检测 线 测 试 的 却 是 机 动车 接口 中 不 存在 的 fly 方 法 ， 直 
到 遇 到 car 的 实例 因 不 存在 fy 方法 而 报错 。 


这 段 代码 实际 上 是 错误 的 ， 不 符合 接口 语义 。 但 是 在 PHP 里 ， 对 
plain 的 实例 进行 检测 时 是 可 以 运行 的 。 也 就 是 说 ， 在 PHP 里 ， 只 关心 古 
人 否 实 现 这 个 方法 ， 而 并 不 关心 接口 语义 是 否 正确 。 


按理 说 ， 接 口 应 该 是 起 一 个 强制 规范 和 契约 的 作用 ， 但 是 这 里 对 接 
口 的 约束 并 没有 起 效 ， 也 打破 了 站 约 ， 对 检测 站 这 个 类 的 行为 失去 控 
制 。 可 以 看 看 在 Java 里 是 怎么 处 理 的 ， 如 图 1-7 所 示 。 














3 public class Machine { 


4 public void show(mobile mobile){ 
5 mobile.fly(); 
} | a The method fy0 5 undefined for the type rr 


| 2 quick fines available 
~ ® Creale method Hy(Y mn ss 

9g | (V Add cast io "mobile 
19 public std$ 
11 Machine machine=new Machine(); 
12 machine.show(new Plain()); 


图 1-7 Java 中 接口 是 一 种 类 型 


Java 认 为 ， 接 口 就 是 一 种 type， 即 类 型 。 如 朱 你 打破 了 我 们 之 间 的 
契约 ， 你 的 行为 变 得 无 法 控制 ， 那 就 是 非法 的 。 这 符合 逻辑 ， 也 符合 现 
实 世界 。 这 就 真正 起 到 接口 作为 规范 的 作用 了 。 


接口 不 仅 规范 接口 的 实现 者 ， 还 规范 接口 的 执行 者 ， 不 允许 调用 接 
口中 本 不 存在 的 方法 。 当 然 这 并 不 是 说 一 个 类 如 果实 现 了 接口 ， 就 只 能 















实现 接口 中 才 有 的 方法 ， 而 是 说 ， 如 有 果 针 对 的 是 接口 ， 而 不 是 具体 的 
类 ， 则 只 能 按 接口 的 约定 办 事 。 这 样 的 语法 规定 对 接口 的 使 用 是 有 利 
的 ， 让 程序 更 健壮 。 根 据 这 个 角度 讲 ， 为 了 保证 接口 的 语义 ， 通 常 一 个 
和 


由 上 面 的 例子 可 以 看 出 ，PHP 里 接口 作为 规范 和 契约 的 作用 打 了 折 
扣 。 上 面 例子 实际 惑 是 一 个 典型 面 癌 接口 编程 的 例子 。 根 据 这 个 例子 ， 
可 以 很 自然 地 想到 使 用 接口 的 场合 ， 比 如 数据 库 操 作 、 绥 存 实现 等 。 不 
用 关心 我 们 所 面 对 的 数据 库 是 MySQL 还 是 Oracle， 只 需要 关心 面向 
0 
y 力 。 


在 这 里 ，Database 就 如 同 employee 一 样 ， 针 对 这 个 接口 实现 就 好 
了 。 绥 存 功能 也 一 样 ， 我 们 不 关注 绥 存 是 内 存 绥 存 还 是 文件 缓存 ， 或 者 
是 数据 库 缓 存 ， 只 关注 它 是 个 实 现 了 Cache 接 口 ， 并 且 和 它 只 要 实现 了 
Cache 接 口 ， 束 实现 了 写 入 绥 存 和 读 取 某 条 绥 存 中 的 数据 及 清除 绥 存 这 
几 个 关键 的 功能 点 。 


通常 在 大 型 项 目 里 ， 会 把 代码 进行 分 层 和 分 工 。 核 心 开 发 人 员 和 技 
术 经 理 编写 核心 的 流程 和 代码 ， 往 往 是 以 接口 的 形式 给 出 ， 而 基础 开发 
人 员 则 针对 这 些 接 口 ， 填 充 代 码 ， 如 数据 库 操作 等 。 这 样 ， 核 心 技 术 人 
员 把 更 多 精力 投入 到 了 技术 攻关 和 业务 逻辑 中 。 前 端 针对 接口 编程 ， 只 
管 在 Action 层 调用 Service， 不 管 实现 细 节 ; 而 后 端 则 要 负责 Dao 和 
Service 层 接口 实现 。 这 样 ， 就 实现 了 代码 分 工 与 合作 。 


























1.4.2 ”对 PHP 接 口 的 思 


PHP 的 接口 自始至终 一 直 在 被 争议 ， 有 人 说 接口 很 好 ， 有 人 说 接口 
像 鸡肋 。 首 先 要 明日 ， 好 和 不 好 的 判断 标准 是 什么 。 无 疑 ， 这 是 和 
Java/C++ 相 比 。 在 上 面 的 例子 中 ， 已 经 讨论 了 PHP 的 接口 在 “面向 九 约 编 
程 ” 中 是 不 足 的 ， 并 没有 起 到 应 有 的 作用 。 


其 实 ， 在 上 面 的 interface.php 代 码 中 ，machine 类 的 声明 应 该 在 plain 
类 前 面 。 接 口 提供 了 一 套 规范 ， 这 是 系统 提供 的 ， 然 后 machine 类 提供 
一 组 针对 接口 的 API 并 实现 ， 最 后 才 是 自 定义 的 类 。 在 Java 里 ， 接 口 之 
所 以 盛行 〈 多 线程 的 runable 接 口 、 容 器 的 collection 接 口 等 ) 就 是 因为 系 
统 为 我 们 做 了 前 面 两 部 分 的 工作 ， 而 程序 员 ， 只 需要 去 写 具 体 的 实现 
类 ， 就 能 保证 接口 可 用 可 控 。 


为 什么 要 用 接口 ? 接口 到 底 有 什么 好 处 ? 接口 本 身 并 不 提供 实现 ， 
只 是 提供 一 个 规范 。 如 果 我 们 知道 一 个 类 实现 了 某 个 接口 ， 那 么 就 知道 
了 可 以 调用 该 接口 的 哪些 方法 ， 我 们 只 需要 知道 这 些 就 够 了 。 

PHP 中 ， 接 口 的 语义 是 有 限 的 ， 使 用 接口 的 地 方 并 不 多 ，PHP 中 接 
口 可 以 淡化 为 设计 文 要 ， 起 到 一 个 团队 基本 契约 的 作用 ， 代 码 清单 1-12 
所 示 。 


代码 清单 1-12 cache imp.php 


























=<? php 
interface cache { 
炎炎 


@describe: 缓存 管理 ， 项 目 经 理 定义 接口 ， 技 术 人 员 负 责 实现 
x##*/ 
const maxKey=10000; // 最 大 缓存 量 

public function getc ($key) ;，// 获 取 缓 存 

public function setc ($key，$value) ; // 设 置 缓存 
public function flush () ; // 清 空 缓存 

} 


由 于 PHP 是 弱 类 型 ， 且 强调 灵活 ， 所 以 并 不 推荐 大 规模 使 用 接口 ， 
而 是 仅 在 部 分 “内 核 ” 代 码 中 使 用 接口 ， 因 为 PHP 中 的 接口 已 经 失去 很 多 
接口 应 该 具有 的 语义 。 从 语义 上 考虑 ， 可 以 更 多 地 使 用 抽象 类 。 至 于 抽 
象 类 和 接口 的 比较 ， 不 再 更 述 。 


另外 ，PHP5 对 面向 对 象 的 特性 做 了 许多 增强 ， 其 中 就 有 一 个 
SPL 〈 标 准 PHP 库 ) 的 尝试 。SPL 中 实现 一 些 接 口 ， 其 中 最 主 就 





Iterator 迄 代 器 接口 ， 通 过 实现 这 个 接口 ， 就 能 使 对 象 能 够 用 于 foreach 结 
构 ， 从 而 在 使 用 形式 上 比较 统一 。 比 如 SPL 中 有 一 个 Directorylterator 

类 ， 这 个 类 在 继承 SplFileInfo 类 的 同时 ， 实 现 Iterator、Traversable、 
SeekablelIterator 这 三 个 接口 ， 那 么 这 个 类 的 实例 可 以 获得 父 类 SplFileInfo 
的 全 部 功能 外 ， 还 能 够 实现 Iterator 接 口 所 展示 的 那些 操作 。 


Iterator 接 口 的 原型 如 下 : 








*current () 

This method returns the current index’s value.You are solely 
responsible for tracking what the current index is as the 
interface does not do this for you. 

*key () 

This method returns the value of the current index’s key.For 
foreach loops this is extremely important so that the key 
value can be populated. 

*next () 

This method moves the internal index forward one entry. 
*rewind () 

This method should reset the internal index to the first element. 
*valid 

This method should return true or false if there is a current 
element .It is called after rewind () or next () . 





如 果 一 个 类 声明 了 实现 Iterator 接 口 ， 就 必须 实现 这 五 个 方法 ， 如 果 
实现 了 这 五 个 方法 ， 那 么 就 可 以 很 容易 对 这 个 类 的 实例 进行 迭代 。 这 
里 ，DirectoryIterator 类 之 所 以 拿 来 就 能 用 ， 是 因为 系统 已 经 实现 了 
Iterator 接 口 ， 所 以 可 以 像 下 面 这 样 使 用 : 








=? php 

$dir=new DirectoryIterator (dirname (FILE) ); 

foreach ($dir as$fileinfo) { 

if (! $fileinfo->isDir () ) { 

echo 

$fileinfo->getFilename (), "\t", $fileinfo->getSize (), PHP_ EOL; 
} 


} 








可 以 想象 ， 如 果 不 用 Directorylterator 类 ， 而 是 自己 实现 ， 不 但 代码 
量 增加 了 ， 而 且 循 环 时 候 的 风格 也 不 统一 了 。 如 果 上 自己 写 的 类 也 实现 了 
Iterator 接 口 ， 那 么 就 可 以 像 Iterator 那 样 工 作 。 


为 什么 一 个 类 只 要 实现 了 Iterator 迭 代 器 ， 其 对 象 就 可 以 被 用 作 
foreach 的 对 象 呢 ?其 实 原 因 很 简单 ， 在 对 PHP 实 例 对 象 使 用 foreach 语 法 
时 ， 会 检查 这 个 实例 有 没有 实现 Iterator 接 口 ， 如 果实 现 了 ， 就 会 通过 内 
置 方法 或 使 用 实现 类 中 的 方法 模拟 foreach 语 句 。 这 是 不 是 和 前 面 提 到 的 
toS tring 的 实现 很 像 呢 ? 事实 上 ，toString 方 法 就 是 接口 的 一 种 变相 
实现 。 


接口 就 是 这 样 ， 接 口 本 号 什 么 也 不 做 ， 系 统 悄 悄 地 在 内 部 实现 了 接 




















口 的 行为 ， 所 以 只 要 实现 这 个 接口 ， 就 可 以 使 用 接口 提供 的 方法 。 这 就 
是 接口 “ 即 插 即 用 ”思想 。 

我 们 都 知道 ， 接 口 是 对 多 重 继 承 的 一 种 变相 实现 ， 而 在 讲 继承 时 ， 
我 们 提 到 了 用 来 实现 混入 (Mixin) 式 的 Traits， 实 际 上 ，Traits 可 以 被 视 
为 一 种 加 强 型 的 接口 。 


来 看 一 段 代 码 : 








H 0 
lic function sayHello () { 
H 0'; 


lic function sayworld () 
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| 人 


[ed 


三 己 m ww 
hs on 
~ 此 


s MyHelloworld { 
Hello, World; 
c function sayExclamationMark () { 


new MyHelloworld () ; 
->sayHello () ; 


~HBHBHBHB “MTS 
[eo DE 


V 


VVV 
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ee 
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口 





上 面 的 代码 运行 结 末 如 下 : 





Hello World! 





这 里 的 MyHelloWorld 同 时 实现 了 两 个 Traits， 从 而 使 其 可 以 分 别 调 
用 两 个 Traits 里 的 代码 段 。 从 代码 中 就 可 以 看 出 ，Traits 和 接口 很 像 ， 不 
同 的 是 Traits 是 可 以 导入 包含 代码 的 接口 。 从 某 种 意义 上 来 说 ，Traits 和 
接口 都 是 对 “多 重 继承 ”的 一 种 变相 实现 。 


总 结 关 于 接口 的 几 个 概念 : 


接口 作为 一 种 规范 和 契约 存在 。 作 为 规范 ， 接 口 应 该 保证 可 用 性 ; 
作为 契约 ， 接 口 应 该 保证 可 控 性 。 


接口 只 是 一 个 声明 ， 一 旦 使 用 interface 关 键 字 ， 就 应 该 实现 它 。 可 
以 由 程序 员 实 现 《〈 外 部 接口 ) ， 也 可 以 由 系统 实现 《内 部 接口 ) 。 接 口 
本 身 什 么 都 不 做 ， 但 是 它 可 以 告诉 我 们 它 能 做 什么 。 














PHP 中 的 接口 存在 两 个 不 足 ， 一 是 没有 契约 限制 ， 二 是 缺少 足够 多 
的 内 部 接口 。 


接口 其 实 很 简单 ， 但 是 接口 的 各 种 应 用 很 灵活 ， 设 计 模 式 中 也 有 很 
大 一 部 分 是 围绕 接口 展开 的 。 


1.5 反射 


i 





反射 ， ee 
你 一 个 光秃秃 的 对 象 ， 我 可 以 仪 仪 通过 这 个 对 象 就 能 知道 它 所 属 的 类 、 
拥有 哪些 方法 。 





反射 指 在 PHP 运 行 状态 中 ， 扩 展 分 析 PHP 程 序 ， 导 出 或 提取 出 关于 
类 、 方 法 、 属 性 、 参数 等 的 详细 人 信息， 包括 注释 。 这 种 动态 获取 信息 以 
及 动态 调用 对 象 方法 的 功能 称 为 反映 API。 


1.5.1 如 何 使 用 反射 APIT 


”以 1.1 节 的 代码 为 模板 ， 直 观 地 认识 反 冉 的 使 用 ， 如 代码 清单 1-13 所 
I 


代码 清单 1-13 reflection.php 





二 ?php 

class person { 

public $ name; 

public $ gender:; 

public function say KE 

echo$ this->name, "\tis", $this->gender, "\r\n"; 
} 


public function set ($name, $value) { 
echo"Setting$name to$value\r \n"; 
$this-> $name=$ value; 

} 


public function get ($name) { 

if (! isset ($this->$name)) { 
echo' 未 设置 ' 

$ this- > $name=' ' 正 在 为 你 设置 默认 值 " 


return$ this-> $name; 
3 


$student=new person (); 
$student->name=’ Tom' ; 
$student->gender=' male' :; 
student ->age=24; 








现在 ， 要 获取 这 个 student 对 象 的 方法 和 属性 列表 该 怎么 做 呢 ? 如 以 
下 代码 所 示 : 





// 获 取 对 象 属性 列表 

$reflect=new ReflectionOobject ($student) ; 
$props =$reflect->getProperties () 
foreach ($props as$prop) { 

print $prop->getName () ."\n"; 

} 


// 获 取 对 象 方法 列表 
$m=$reflect->getMethods () ; 
foreach ($m as$prop) { 

print $prop->getName () ."\n"; 
} 





也 可 以 不 用 反射 API， 使 用 class 函 数 ， 返 回 对 象 属 性 的 关联 数组 以 
及 更 多 的 信息 : 





// 返 回 对 象 属性 的 关联 数组 

var_dump (get object vars ($student) ); 
// 类 属性 
var_ dump (get class vars (get class ($student) ) ) ; 
// 返 回 由 类 的 方法 名 组 成 的 数组 

var_dump (get class methods (get class ($student) ) ); 














假如 这 个 对 象 是 从 其 他 页 面 传 过 来 的 ， 怎 么 知道 它 属于 哪个 类 呢 ? 
一 句 代 码 就 可 以 搞定 : 





// 获 取 对 象 属性 列表 所 属 的 类 
echo get_class ($student) ; 








反射 API 的 功能 显然 更 强大 ， 甚 至 能 还 原 这 个 类 的 原型 ， 包 括 方法 
的 访问 权限 ， 如 代码 清单 1-14 所 示 。 


代码 清单 1-14 使 用 反射 API 





// 反 射 获取 类 的 原型 

$obj=new ReflectionClass (' person’ ) ， 
$className=$ 0bj->getName () ; 
$Methods=$ Properties=array () ; 
foreach ($obj->getProperties () as$v) 


{ 
$Properties[ $v->getName () ]=$v; 
foreach ($0obj->getMethods () as $v) 
$Methods[ $v->getName () ]=$v; 
} 
echo"class {$className} \n {\n"; 
is_array ($Properties) &&ksort ($Properties); 
foreach ($Properties as$k=> $v) 
{ 
echo" \t"; 
echo$v->isPublic () ? ' public’ : ’', $v->isPrivate () ? ' private’ : 
$v->isProtected () ? ' protected’ : '', 
$v->isStatic () ? ' static’ : 
echo"\t {$k} \n"; 
} 
echo" \n"; 
if (is_array ($Methods) ) ksort ($Methods); 
foreach ($Methods as$ k=> $v) 
{ 
echo"\ tfunction {$k} () {} \n"; 
} 


echo"} \n"; 





输出 如 下 : 





class person 








不 仅 如 此 ，PHP 手 册 中 关于 反射 API 更 是 有 几 十 个 ， 可 以 说 ， 反 射 
完整 地 描述 了 一 个 类 或 者 对 象 的 原型 。 反 射 不 仅 可 以 用 于 类 和 对 象 ， 还 
可 以 用 于 函数 、 扩 展 模块 、 异 常 等 。 


1.5.2 反射 有 什么 作用 


反射 可 以 用 于 文档 生成 。 因 此 可 以 用 和 它 对 文件 里 的 类 进行 扫描 ， 逐 
个 生成 描述 文档 。 


既然 反射 可 以 探知 类 的 内 部 结构 ， 那 么 是 不 是 可 以 用 它 做 hook 实 现 
或 者 是 做 动态 代理 呢 ? 抛砖引玉 ， 代 码 清单 1-15 是 个 简单 
举例。 


代码 清单 1-15 proxy.php 








? php 
eas 时 Weg 
fu 
ec fe “5 no \r\n 


function call ($n $a { 
foreach ($this- >tar ee as $0 on { 
$r=new ReflectionClass ( 
1 ethod= $r 本 hd namey 3 人 
f ($method->i sPublic Ce $method->isAbstract () ) { 


$method-> ake Qe ob Sarde 
echo" 方 法 后 5 和 截 \ 
} 


} 


} 
} 
} 
ope SAUproxy- mys Yh 
$obj->connect (’ member’ ); 





这 里 简单 说 明 一 下 ， 真 正 的 操作 类 是 mysql 类 ， 但 是 sqlproxy 类 实现 
了 根据 动态 传 入 参数 ， 代 替 实 际 的 类 运行 ， 并 且 在 方法 运行 前 后 进行 拦 
截 ， 并 且 动 态 地 改变 类 中 的 方法 和 属性 。 这 就 是 简单 的 动态 代理 。 


在 平常 开发 中 ， 用 到 反射 的 地 方 不 多 : 一 个 是 对 对 象 进行 调试 ， 男 
一 个 是 获取 类 的 信息 。 在 MVC 和 插件 开发 中 ， 使 用 反射 很 常见 ， 但 是 
反射 的 消耗 也 很 大 ， 在 可 以 找到 蔡 代 方 案 的 情况 下 ， 就 不 要 滥用 。 


PHP 有 Token 函 数 ， 可 以 通过 这 个 机 制 实现 一 些 反 射 功 能 。 从 简单 
灵活 的 角度 讲 ， 使 用 已经 提供 的 反射 API 是 可 取 的 。 


很 多 时 候 ， 善 用 反射 能 保持 代码 的 优雅 和 简洁 ， 但 反射 也 会 破坏 类 
的 封装 性 ， 因 为 反射 可 以 使 本 不 应 该 暴露 的 方法 或 属性 被 强制 暴露 了 出 




















来 ， 这 既是 优点 也 是 缺点 。 


思考 题 ”为 什么 要 使 用 反射 ， 反 射 存 在 的 必要 性 是 什么 ? 或 者 说 ， 
反射 为 什么 会 存在 ? 《已 知 一 些 情 况 : C 语 言 是 面向 过 程 的 编程 语言 ， 
PHP、C++、Java 是 具有 面 问 对 象 风 格 的 编程 语言 。C 语 言 和 C++ 中 没有 
对 反射 的 原生 支持 ， 而 PHP 和 Java 具 有 反射 API。 可 以 思考 一 下 ， 为 什 
么 C/C++ 语言 里 没有 反射 ， 以 及 C/C++ 语言 里 是 否 需 要 反射 ? ) 








1.6 弄 意 和 错误 处 理 


在 语言 级 别 上 ， 通 常 具 有 许多 错误 处 理 模 式 ， 但 这 些 模 式 往往 建 并 
在 约定 俗 成 的 基础 上 ， 也 就 是 说 这 些 错误 都 是 预知 的 。 但 是 在 大 型 程序 
中 ， 如 采 每 次 调用 都 去 逐一 检查 错误 ， 会 使 代码 变 得 见长 复杂 ， 到 处 充 
斥 独 主 ..….else， 并 且 严 重 降 低 代码 的 可 读 性 。 而 且 人 的 因素 也 是 不 可 信 
赖 的 ， 程 序 员 可 能 并 不 会 把 这 些 问 题 当 一 回 事 ， 从 而 导致 业务 异常 。 在 
这 种 背景 下 ， 就 逐渐 形成 了 异常 处 理 机 制 ， 或 者 强迫 消除 这 些 问 题 ， 或 
者 把 问题 提交 给 能 解决 它 的 环境 。 这 就 把 “描述 在 正常 过 程 中 做 什么 事 
的 代码 ”和 “出 了 问题 怎么 办 的 代码 ”进行 分 离 。 


1.6.1 ”如 何 使 用 异常 处 理 机 制 


异常 的 思想 最 早 可 以 追溯 到 20 世 纪 60 年 代 ， 其 在 Ct++、Java 中 发 扬 
光大 ，PHP 则 部 分 借鉴 了 这 两 种 语言 的 异常 处 理 机 制 。 


PHP 里 的 异常 ， 是 程序 运行 中 不 符合 预期 的 情况 及 与 正 第 流程 不 同 
的 状况 。 一 种 不 正常 的 情况 ， 就 是 按照 正 第 逻辑 不 该 出 错 ， 但 仍然 出 错 
的 情况 ， 这 属于 逻辑 和 业务 流程 的 一 种 中 断 ， 而 不 是 语法 错误 。PHP 里 
的 错误 则 属于 上 自身 问题 ， 是 一 种 非法 语法 或 者 环境 问题 导致 的 、 让 编译 
恬 无 法 通过 检查 甚至 无 法 运行 的 情况 。 


在 各 种 语言 里 ， 异 常 〈exception) 和 错误 (error) 的 概念 是 不 一 样 
的 。 在 PHP 里 ， 遇 到 任何 自 吴 错误 都 会 触发 一 个 错误 ， 而 不 是 抛 出 寞 常 
(对 于 一 些 情况 ， 会 同时 抛 出 异常 和 错误 ) 。PHP 一 旦 过 到 非 正常 代 
人 码 ， 通 党 都 会 触发 错误 ， 而 不 是 抛 出 异常 。 在 这 个 意义 上 ， 如 果 想 使 用 
异常 处 理 不 可 预料 的 问题 ， 是 办 不 到 的 。 比 如 ， 想 在 文件 不 存在 有 旦 数据 
库 连 接 打 不 开 时 触发 异常 ， 是 不 可 行 的 。 这 在 PHP 里 把 它 作 为 错误 抛 
出 ， 而 不 会 作为 异常 自动 捕获 。 


以 经 典 的 除 零 问题 为 例 ， 如 代码 清单 1-16 所 示 。 


代码 清单 1-16 exception.php 






































//exception.php 
<? php 
=nul11; 


echo$a, PHP_ EOL:; 

} catch (exception$e) { 
$e->getMessage (); 
$a=-1; 


echo $a; 





运行 结果 如 图 1-8 所 示 。 


2 Warning: Division by zero in 6G:\bak\temp\tenpcode\exception2.php on line 4 


4 Call stack: 
和 B,B962 323216 1, {main}() 6G:\bak\tenp\tempcode\exception2,php:9 


图 1-8 PHP 里 的 除 零 错误 
代码 清单 1-17 所 示 是 Java 代 码 。 


代码 清单 1-17 ExceptionTry.java 











//ExceptionTry .java 

public class ExcepetionTry { 

public static void tp () throws ArithmeticException { 
int al; 

a=5/0; 

System.out.println ("运算 结果 : "+a) ; 

. 


public static void main (String[]args) { 
int a; try{ 

a=5/0; 

System.out.println ("运算 结果 : "+a) ; 

} catch (ArithmeticException e) { 
e.printStackTrace () ; } finally { 


System.out .print1n ("运算 结果 : "+a) ; 
} 


try { 

ExcepetionTry.tp (); 

} catch (Exception e) { 
System.out.println ("异常 被 捕获 "); 
} 


} 
} 





运行 结果 如 图 1-9 所 示 。 


n(Excepetjoniry. java:13) 





图 1-9 Java 里 的 除 零 异常 


把 tp 方法 中 的 第 二 条 语句 改 为 如 下 形式 : 





a=5/1; 





修改 后 的 结果 如 图 1-10 所 示 。 





图 1-10 Java 里 的 异常 
由 以 上 运行 结果 可 以 看 到 ， 对 于 除 零 这 种 “异常 ”情况 ，PHP 认 为 这 
是 一 个 错误 ， 直 接触 发 错误 (warning 也 是 错误 ， 只 是 错误 等 级 不 一 
样 ，， 而 不 会 自动 抛 出 异常 使 程序 进入 异常 流程 ， 故 最 终 a 值 并 不 是 预 
想 中 的 -1， 也 就 是 说 ， 并 没有 进入 异常 分 支 ， 也 没有 处 理 异 常 。PHP 只 
有 你 主动 throw 后 ， 才 能 捕获 异常 (一 般 情 况 是 这 样 ， 也 有 一 些 异 常 PHP 
可 以 上 自动 捕获 ) 。 


而 对 于 Java， 则 认为 除 零 属于 ArithmeticException， 会 对 其 进行 捕 
获 ， 并 对 异常 进行 处 理 。 


也 就 是 说 ，PHP 通 常 是 无 法 自动 捕获 有 意义 的 弄 第 的 ， 它 把 所 有 不 
正和 常 的 情况 都 视 作 了 错误 ， 你 要 想 捕获 这 个 异常 ， 束 得 使 用 if..….…...else 结 
构 ， 保 证 代码 是 正常 的 ， 然 后 判断 如 果 除 数 为 0， 则 手动 殷 出 异常 ， 再 
捕获 。Java 有 一 套 完 整 的 异常 机 制 ， 内 置 很 多 弄 常 类 会 自动 捕获 各 种 各 
样 的 异常 。 但 PHP 这 个 机 制 不 完善 。PHP 内 建 的 常见 异常 类 主要 有 
pdoexception、reflection exception。 


注意 ”其 实 PHP 和 Java 之 间 之 所 以 有 这 个 送 距 ， 根 本 原因 就 在 于 ， 
在 Java 里 ， 异 常 是 唯一 的 错误 报告 方式 ， 而 在 PHP 中 却 不 是 这 样 。 通 俗 
一 点 讲 ， 束 是 这 两 种 语言 对 异常 和 错误 的 界定 存在 分 卜 。 什 么 是 异常 ， 
什么 是 错误 ， 两 种 语言 的 设计 者 存在 不 同 的 观点 。 

也 就 是 说 ，PHP 只 有 手动 抛 出 腊 第 后 才能 捕获 异常 ， 或 者 是 有 内 建 
的 异常 机 制 时 ， 会 完 触发 错误 ， 再 捕获 寞 第 。 那 么 PHP 里 的 寞 常用 法 应 
该 是 什么 样 的 呢 ? 看 下 面 的 例子 。 


先 定 义 两 个 异常 类 ， 它 们 需要 继承 自 系 统 的 exception， 如 代码 清单 
1-18 所 示 。 


代码 清单 1-18 ”定义 两 个 异常 类 



































class emailException extends exception { 
} 

class pwdException extends exception { 
function toString () 


return"<div class=\"error \">Exception {$this->getCode () } : 


{$this->getMessage () } 

in File: {S$this- >getFile () } on line: {$this->getLine () } </div>" 
// 改 写 抛 出 异常 结果 

} 


} 





然后 束 是 实际 的 业务 ， 根 据 业 务 需求 殷 出 不 同 异常 ， 如 代码 清单 1- 
19 上 所 示 。 


代码 清单 1-19 根据 业务 需求 抛 出 不 同 异 





function reg ($reginfo=null) { 

if (empty ($reginfo) | |! Let Brepinne ) 
throw new Exception ("参数 非法 

} 


if (empty ($reginfo[’' email’ ]) ) { 
throw new emailException ("邮件 为 空 ") ; 
} 


if ($reginfo[’ pwd’ ]! Rot: popu ]) { 
throw new pwdException ("两 次 密码 不 一 致 ") 


} 
echo' 注册 成 功 / 
} 





上 面 的 代码 判断 传 入 的 参数 ， 根 据 业 务 进 行 异常 分 发 。 首 先 ， 如 果 
没有 传 入 任何 参数 〈 这 个 参数 可 以 是 POST 进来 ， 也 可 以 是 别 的 地 方 赋 
值得 到 ) ， 就 把 异常 分 发 络 全 exception 超 类 ， 跳 出 注册 流程 ， 如 果 Email 
地 址 不 存在 ， 那 么 把 异 常 分 发 给 自 定义 的 emailException 异 第 ， 跳 出 注 
骨 流 程 ， 如 果 两 次 密码 不 致 ， 则 将 异常 分 发 给 自 定 义 的 
pwdException， 跳 出 注册 流程 。 


现在 异常 分 发 了 ， 但 还 不 算 完 ， 还 需要 对 有 异常 进行 分 拣 并 做 处 理 。 
代码 如 下 所 示 : 








try { 

reg (array (’ email’ =>"' waitfox@qq.com’ ， ' pwd’ =>123456, ' repwd’ =>12345678) ) ; 
//reg () ; 

} catch (emailException $ ee) { 
echo$ee->getMessage () ; 

} Catch (pwdException $ ep) { 
echo 和 

echo PHP EOL，” 特 殊 处 理 / 

} catch (CException$e) { 
echo$e->getTraceAsString ( 

echo PHP_E0OL, “其 他 情况 ， 统 况 理 ， 
} 

















这 一 段 代码 用 于 捕获 所 抛 出 的 各 种 异常 ， 进 行 分 门 别 类 的 处 理 。 


提示 “可 以 尝试 不 同 注册 条 件 ， 看 看 异 党 分 拣 的 流程 。 需 要 注意 ， 
党 超 类 后 ， 后 
面 的 捕获 就 终止 了 ， 而 这 个 超 类 不 能 提供 针对 性 的 信息 和 处 理 。 











在 这 里 ， 对 表单 进行 异常 处 理 ， 通 过 重 写 异常 类 、 手 动 抛 出 错误 的 
方式 进行 异 剃 处理。 这 是 一 种 业务 异 闸 ， 可 以 人 为 地 把 所 有 不 符合 要 求 
的 情况 都 视 作业 务 异常 ， 和 通常 意义 上 的 代码 异常 相 区 别 。 


那 PHP 里 的 腊 第 应 该 怎么 用 ? 在 什么 时 候 抛 出 异常 ， 什 么 时 候 捕 获 
昵 ?什么 场景 下 能 应 用 腊 和 党 ? 在 下 面 三 种 场景 下 会 用 到 异常 处 理 机 制 。 


1. 对 程序 的 慕 观 预测 


如 果 一 个 程序 员 对 自己 的 代码 有 “悲观 情绪 ?"， 这 里 并 不 是 指 该 程序 
员 代 码 质 量 不 高 ， 而 是 他 认为 自己 的 代码 无 法 一 一 处 理 各 种 可 预见 、 不 
可 预见 的 情况 ， 那 该 程序 员 就 会 进行 异常 处理。 假设 一 个 场景 ， 程 序 员 
亚 观 地 认为 目 己 的 这 段 代 码 在 高 并 发 条 件 下 可 能 产生 死 锁 ， 那 么 他 融会 
赤 观 地 抛 出 异常 ， 然 后 在 死 锁 时 进行 捕获 ， 对 弄 利 进行 细致 的 处 理 。 


2. 程 序 的 需要 和 对 业务 的 关注 


如 傈 程序 员 希 望 业务 代码 中 不 会 充斥 大 堆 的 打印 、 调 试 等 处 理 ， 通 
常 他 们 会 使 用 异常 机 制 ， 或 者 业务 上 需要 定义 一 些 自己 的 异常 ， 这 个 时 
候 就 需要 自 定 义 一 个 异常 ， 对 现实 世界 中 各 种 各 样 的 业务 进行 补充 。 比 
如 上 班 迟到 ， 这 种 情况 认为 是 一 个 异常 ， 要 收集 起 来 ， 到 月 抵 集 中 处 
理 ， 扣 你 工资 ， 如 果 程 序 员 希望 有 预见 性 地 处 理 可 能 发 生 的 、 会 影 啊 正 
常 业 务 的 代码 ， 那 么 它 需 要 异常 。 在 这 里 ， 强 调 了 寞 第 是 业务 处 理 中 必 
不 可 少 的 环节 ， 不 能 对 寞 第 视而不见 。 寞 常 机 制 认为 ， 数 据 一 致 很 重 
要 ， 在 数据 一 致 性 可 能 被 破坏 时 ， 就 需要 异常 机 制 进行 事后 补救 。 


举 个 例子 ， 比 如 有 个 上 传 文 件 的 业务 需求 ， 要 把 上 传 的 文件 保存 在 
一 个 目录 里 ， 并 在 数据 库 里 插入 这 个 文件 的 记录 ， 那 么 这 两 步 束 是 互相 
关联 、 密 不 可 分 的 一 个 集成 的 业务 ， 缺 一 不 可 。 文 件 保存 失败 ， 而 插入 
记录 成 功 融 会 导致 无 法 下 载 文件 ， 而 文件 保存 成 功 数据 库 写 入 失败 ， 则 
会 导致 没有 记录 的 文件 成 为 死 文 件 ， 永 远 得 不 到 下 载 。 


那么 假设 文件 保存 成 功 后 没有 提示 ， 但 是 保存 失败 会 目 动 抛 出 腊 
常 ， 访 问 数 据 库 也 一 样 ， 插 入 成 功 没有 提示 ， 失 败 则 上 自动 抛 出 异常 ， 束 
可 以 把 这 两 个 有 可 能 抛 出 异常 的 代码 段 包 在 一 个 ry 语句 里 ， 然 后 用 
catch 捕 捉 错 误 ， 在 catch 代 码 段 里 删除 没有 被 记录 到 数据 库 的 文件 或 者 
删除 没有 文件 的 记录 ， 以 保证 业务 数据 的 一 致 性 。 因 此 ， 从 业务 这 个 角 
度 讲 ， 寞 常 偏重 于 保护 业务 数据 一 致 性 ， 并 且 强 调 对 异常 业务 的 处 理 。 


















































如 有 打 代 但 中 只 是 象征 性 地 ty ee catch， 然 后 打印 一 个 报错 ， 最 后 





over。 这 样 的 异常 不 如 不 用 ， 因 为 其 没有 体现 异常 思想 。 所 以 ， 合 理 的 
代码 应 该 如 下 : 


if 站 不 成 攻 ) throw (上传 异常 
if a 功 ) thro (各 迫 库 操 省 内 党 1) ; 
hu 


We i 施 ， 如 删除 文件 、 删 除数 据 库 插入 记录 ， 这 个 处 理 很 细致 





也 可 以 如 下 : 





<? ph 

十 之 件 上 从 ;不 成 功 ) throw (上 传 异常 ); 

if (插入 数据 库 不 成 功 ) Eno 雪 据 库 损 放 异常 
// 其 他 代码 .… 

EF 


条 
上 传 ， 其 他 ; 
} catch (上 传 异 常 ) { 
必须 的 补救 措施 ， 如 删除 文件 ， 删 除数 据 库 插入 记录 
} catch《〈 其 他 异常 ) { 











记录 1og 
} 
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上 面 两 种 捕获 开 币 的 方式 中 ， 前 一 种 是 在 元 第 发 生 时 立刻 捕获 ， 后 
一 种 是 分 散 抛 异 浓 集 中 捕获 。 那 到 底 应 该 是 哪 一 种 呢 ? 


如 果 业 务 很 重要 ， 那 么 异常 越 早 处 理 越 好 ， 以 保证 程序 在 意外 情况 

能 保持 业务 处 理 的 一 致 性 。 比 如 一 个 操作 有 多 个 前 提 步 骤 ， 突 然 最 后 
一 个 步骤 异常 了 ， 那 么 其 他 前 提 控 作 都 要 消除 掉 才 行 ， 以 保证 数据 的 一 
致 性 。 并 且 在 这 种 核心 业务 下 ， 有 大 量 的 代码 来 做 善后 工作 ， 进 行 数 据 
补救 ， 这 是 一 种 比较 志 观 的 、 而 义 重 要 的 开 笛 。 我 们 应 把 元 笛 消 灭 在 局 
部 ， 避 免 异常 的 扩散 。 


如 果 异 常 不 是 那么 重要 ， 并 且 在 单一 入 口 、MVC 风 格 的 应 用 中 ， 
为 了 保持 代码 流程 的 统一 ， 则 常常 采用 后 一 种 异常 处 理 方式 。 这 种 异 第 
处 理 方式 更 多 强调 业务 流程 的 走 同 ， 对 善后 工作 并 不 是 很 关心 。 这 是 一 
种 次 要 腊 滔 ， 其 将 异常 集中 处 理 从 而 使 流程 更 专 一 。 


异常 处 理 机 制 可 以 把 每 一 件 事 当做 事务 考虑 ， 还 可 以 把 异常 看 成 一 
种 内 建 的 恢复 系统 。 如 果 程 序 某 部 分 失败 ， 异 常 将 恢复 到 某 个 已 知 稳定 
的 点 上 ， 而 这 个 点 就 是 程序 的 上 下 文 环境 ， 而 try 块 里 面 的 代码 就 保存 




















catch 所 要 知道 的 程序 上 下 文 信息 。 因 此 ， 如 果 很 看 重 异 常 ， 就 应 该 分 散 
进行 try..………. catch 处 理 。 


3. 语 言 级 别 的 健壮 性 要 求 


在 健壮 性 这 点 上 ，PHP 是 不 足 的 。 以 Java 为 例 ，Java 是 一 种 面向 企 
业 级 开发 的 语言 ， 强 调 健 壮 性 。Java 中 支持 多 线程 ，Java 认 为 ， 多 线程 
被 中 断 这 种 情况 是 彻 彻底 底 的 无 法 预料 和 避免 的 。 所 以 Java 规 定 ， 几 是 
用 了 多 线程 ， 就 必须 正视 这 种 情况 。 你 要 么 抛 出 ， 不 管 它 ， 要 么 捕获 ， 
进行 处 理 。 总 之 ， 你 必须 面 对 InterruptedException 异 常 ， 不 准 回 避 。 也 
就 是 异常 发 生 后 应 对 重要 数据 业务 进行 补救 ， 当 然 你 可 以 不 做 ， 但 是 你 
必须 意识 到 ， 异 常 有 可 能 发 生 。 








这 类 异 肖 是 强制 的 。 更 多 异常 是 非 强制 的 ， 由 程序 员 决 是 。Java 对 
异常 的 分 类 和 和 约束， 保证 了 Java 程 序 的 健壮 性 。 


异 弟 就 是 无 法 控制 的 运行 时 错误 ， 会 导致 出 错时 中 断 正 常 逻 辑 运 
行 ， 该 异常 代码 后 面 的 逻辑 都 不 能 继续 运行 。 那 么 try..…...catch 处 理 的 
好 处 就 是 : 可 以 把 异常 造成 的 逻辑 中 断 破 坏 降 到 最 小 范围 内 ， 并 且 经 过 
补救 处 理 后 不 影响 业务 逻辑 的 完整 性 ， 乱 抛 异常 和 只 抛 不 捕获 ， 或 捕获 
而 不 补救 ， 会 导致 数据 混乱 。 这 就 是 异常 处 理 的 一 个 重要 作用 ， 就 是 通 
过 精确 控制 运行 时 的 流程 ， 在 程序 中 断 时 ， 有 预见 地 用 try 缩 小 可 能 出 错 
的 影响 范围 ， 及 时 捕获 异常 发 生 并 做 出 相应 补救 ， 以 使 逻辑 流程 仍然 能 
回 到 正常 轨道 上 。 


1.6.2 ”怎样 看 PHP 的 异常 


PHP 中 的 异常 机 制 是 不 足 的 ， 绝 大 多 数 情况 下 无 法 上 自动 抛 出 异 津 ， 
必须 用 站 .…...else 先 进行 判断 ， 再 手动 抛 出 异常 。 手 动 抛 异常 的 意义 不 是 
很 大 ， 因 为 这 意味 着 在 代码 里 已经 充分 预期 到 错误 的 出 现 ， 也 就 算 不 上 
真正 的 “异常 ”， 而 是 意料 之 中 。 同 时 ， 这 种 方式 还 会 使 你 陷入 纷繁 复杂 
的 业务 逻辑 判断 和 处 理 中 。 


Java 语 言 做 得 比较 好 的 就 是 定义 了 一 堆 内 置 的 常见 异常 ， 不 需要 程 
序 员 判断 各 种 异常 情况 后 再 手动 抛 出 ， 编 译 器 会 代 我 们 进行 判断 业务 是 
否 发 生 错误 ， 知 发 生 了 ， 则 自动 抛 出 异常 。 作 为 程序 员 ， 只 需要 关心 异 
常 的 捕获 和 随后 补救 ， 而 不 是 像 PHP 那 样 关注 到 底 会 发 生 哪些 异常 ， 用 
if...... else 逐 一 判断 ， 逐 一 抛 出 异常 。 


有 没有 什么 机 制 使 得 PHP 可 以 上 自动 抛 出 异常 呢 ? 有 ， 那 束 是 结合 
PHP 中 的 错误 处 理 主动 抛 出 异常。 


使 用 异常 能 一 定 程度 上 会 降低 耦合 性 ， 但 是 也 不 能 滥用 。 拷 用 异 冲 
的 后 果 就 是 很 可 能 导致 代码 被 多 处 挂 起 ， 流 程 变 得 更 复杂 ， 难 于 理解 。 
但 是 可 以 肯定， 有 寞 党 在 PHP 里 有 很 大 的 价值 ， 越 复杂 的 应 用 ， 越 需要 合 
理 考 虑 使 用 异种 。 


提示 ”需要 提醒 读者 关注 ，SPL 里 定义 了 一 大 堆 exception， 如 
BadMethodCallException、LogicEx ception 等 ， 同 时 这 些 异 常 之 间 还 存在 
层级 关系 。 这 些 异 常 只 是 一 个 空 沈 ， 什 么 方法 都 没有 ， 需 要 自己 填充 。 
它们 实际 上 起 到 一 个 命名 参考 的 作用 。 




















1.6.3 PHP 中 的 错误 级 别 


错误 处 理 本 来 不 属于 面 同 对 象 的 范畴 ， 但 是 既然 讲 到 异 第 ， 束 不 得 
不 提 太 异常 的 同胞 兄 第 普 误 。 


PHP 错 误 处 理 比 异常 的 价值 大 得 多 。PHP 错 误 的 概念 已 经 和 异常 做 
过 比较 ， 这 里 通过 对 PHP 异 常 的 认 知 ， 给 PHP 错 误 下 个 最 直观 最 通俗 的 
结论 : PHP 错误 就 是 会 使 脚本 运行 不 正常 的 情况 。 


PHP 错 误 有 很 多 种 ， 包 括 warning、notice、deprecated、fetal 。 error 
等 。 这 和 一 般 意 义 的 错误 概念 有 些 差 别 。 所 以 ，notice 不 叫 通知 ， 而 叫 
通知 级 别 的 错误 ，warning 也 不 叫 警告 ， 而 叫 警 告 级 别 的 错误 。 


错误 大 致 分 为 以 下 几 类 。 


deprecated 是 最 低级 别 的 错误 ， 表 示 “ 不 推荐 ， 不 建议 "。 比 如 在 PHP 
5 中 使 用 ereg 系 列 的 正则 匹配 函数 驶 会 报 此 类 错误 。 这 种 错误 一 般 由 于 
使 用 不 推荐 的 、 过 时 的 函数 或 语法 造成 的 。 其 虽 不 影响 PHP 正 党 流程 ， 
但 一 般 情 况 下 建议 修正 。 


其 次 是 notice。 这 种 错误 一 般 告 诉 你 语法 中 存在 不 当 的 地 方 。 如 使 
用 变量 但 是 未 定义 就 会 报 此 错 。 最 常见 的 ， 数 组 索引 是 字符 时 没有 加 引 
号 ，PHP 就 视 为 一 个 钊 量 ， 先 碍 找 种 量 表 ， 找 不 到 再 视 为 变量 。 虽 然 
PHP 是 脚本 语言 ， 语 法 要 求 不 严 ， 但 是 仍然 建议 对 变量 进行 初始 化 。 这 
种 错误 不 影响 PHP 正 常 流程 。 


warning 是 级 别 比 较 高 的 错误 ， 在 语法 中 出 现 很 不 恰当 的 情况 时 才 
会 报 此 错误 ， 比 如 函数 参数 不 匹配 。 这 种 级 别 的 错误 会 导致 得 不 到 预期 
结果 ， 故 需要 修改 代码 。 


更 高 级 别 的 错误 是 fetal error。 这 是 致命 错误 ， 直 接 导 致 PHP 流 程 终 
结 ， 后 面 的 代码 不 再 执行 。 这 种 问题 非 改 不 可 。 


最 高 级 别 的 错误 是 语法 解析 错误 prase error。 上 面 提 到 的 错误 都 属 
于 PHP 代 码 运 行 期 间 错 误 ， 而 语法 解析 错误 属于 语法 检查 阶段 错误 ， 这 
将 导致 PHP 代 码 无 法 通过 语法 检查 。 错 误 级 别 不 止 这 几 个 ， 最 主要 的 都 
在 前 面 提 到 了 。PHP 手 册 中 一 共 定 义 了 16 个 级 别 的 错误 ， 最 党 用 的 就 这 





























儿 个 。 代 码 清单 1-20 演 示 了 和 常见 级 别 的 错误 。 


代码 清单 1-20 ”error.php 





a php 
h 


? php 
Gd 2012-12-20 


if (ereg (" ([0-9] ta ) - ([0-9] {1, 2} ) - ([0-9] {1, 2} ) ", $date, $regs)) { 
echo" $regs[3]. $regs[2]. $regs[1]": 

} else { 

echo"Invalid date format: $date"; 

if ($i { 

Si 号 设 有 初始化 呵 | ，PHP__EOL; 


i array tt 人 
echo $a[o]:; 

$result=array sum ($a, 3); 
echo fun (); 

echo， 致命 错误 后 呢 ? 还 会 执行 吗 ? ， ， 
//echo” 最 高 级 别 的 错误 ”，$55， 





这 段 代码 演示 至 少 四 个 级 别 的 错误 ， 如 果 看 不 全 ， 应 确保 你 的 
php.ini 文 件 做 了 如 下 设 定 : 





error_reporting=E ALL | E_STRICT 
display_errors=on 





error _reporting 指 定 错误 级 别 ， 上 面 的 设置 是 最 严格 的 错误 级 别 ， 
具体 设置 可 以 参 php.ini。 


提示 “有 一 个 技巧 我 想 你 会 用 到 ， 那 就 是 在 代码 质量 或 者 环境 不 可 
控 时 〈 比 如 数据 库 连 接 失 败 ) ， 使 用 error a 
蔽 错误 了 ， 正 式 部 署 时 可 以 采取 这 样 的 策略 ， 防 止 错误 消息 泄露 敏感 信 
息 。 另 外 一 个 找 巧 就 是 在 函数 前 加 @ 符 号 ， 抑 制 恒 误 信息 输出 ， 如 
@mysql connect () 。 





1.6.4 PHP 中 的 错误 处 理 机 制 


PHP 里 有 一 套 错 误 处 理 机 制 ， 可 以 使 用 set error handler 接 管 PHP 
错误 处 理 ， 也 可 以 使 用 trigger error 函 数 主 动 抛 出 一 个 错误 。 


set error handler () 函数 设置 用 户 ee 国 数 
用 于 创建 运行 期 间 的 用 户 自 己 的 和 着 误 人 处理 方法 。 它 需要 先 创建 一 个 错误 
处 理 函 数 ， 然后 设置 错误 级 别 . 语法 如 下 : 





set_error_handler (error_function, error_types) 





参数 描述 如 下 : 
error ”function: 规定 发 生 错 误 时 运行 的 图 数 。 必 需 。 


error_types: 规定 在 哪个 错误 报告 级 别 会 显示 用 户 定 义 的 错误 。 可 
选 。 默 认为 "E_ALL”。 


提示 ”如果 使 用 该 函数 ， 会 完全 绕 过 标准 PHP 错 误 处 理 函 数 ， 如 果 
有 必要 ， 用 户 定义 的 错误 处 理 程 序 必须 终止 (die() ) 脚本 。 


如 果 在 脚本 执行 前 发 生 错 误 ， 由 于 在 那 时 自 定义 程序 还 没有 注册 ， 
因此 就 不 会 用 到 这 个 自 定义 错误 处 理 程序 。 这 先 实 现 一 个 自 定义 的 异常 
处 理 函 数 ， 如 代码 清单 1-21 所 示 。 


代码 清单 1-21 自 定 义 的 异常 处 理 函 数 








<? php 
function customError ($e $errstr, $errfile, $errline) 


cho"<b> 错 误 代码 : Sb er }]$ {er ) \r\n 

cho" 错 误 所 在 的 代码 行 ， {$e ne) 文人 (Se nr 1e } Ar 

cho Re PHP VERSION, "e PHP_0S，") \r\n 
Z]die 


} 
set_ error_handler ("customError", E_ALL |E_STRICT) ; 


$a=array (' oo’ 三 4 6， 8) ; 
echo$ a[ ol; 





在 这 个 函数 里 ， 可 以 对 错误 的 详情 进行 格式 化 输出 ， 也 可 以 做 任何 
要 做 的 事情 ， 比 如 判断 当前 环境 和 权限 给 出 不 同 的 错误 提示 ， 可 使 用 
errer log 函数 将 错误 记 入 log 文 件 ， 还 可 以 细 化 处 理 ， 针 对 errno 的 不 同 


进行 对 应 的 处 理 。 
和 目 定义 的 错误 处 理 函 数 一 定 要 有 这 四 个 输入 变量 errno、errstr、 


errfile、 errline。 


ermo 是 一 组 常量 ， 代 表 错 误 的 等 级 ， 同 时 也 有 一 组 整数 和 其 对 应 ， 
但 一 般 使 用 其 字符 串 值 表 示 ， 这 样 语义 更 好 一 点 。 比 如 E__ 
WARNING， 其 二 进 制 掩 码 为 4.， 表 示警 告 信息 。 


接 下 来 ， 就 是 将 这 个 函数 作为 回调 参数 传递 给 set_error handler。 
这 样 就 能 接管 PHP 原 生 的 错误 处 理 函 数 了 。 要 注意 的 是 ， 这 种 托管 方式 
并 不 能 托管 所 有 种 类 的 错误 ， 如 E ERROR、E PARSE、 E CORE 
ERROR、 E CORE WARNING. E COMPILFE ERROR.、 Po 
COMPILE WARN ING， 以 及 E。 STRICT 中 的 部 分 。 这 些 错误 会 以 最 
原始 的 方式 显示 ， 或 者 不 显示 。 


set ”error _handler 函 数 会 接管 PHP 内 置 的 错误 处 理 ， 你 可 以 在 同一 
个 页 面 使 用 restore error handler () ; 取消 接管 。 


注意 ”如果 使 用 自 定义 的 set” error handler 接 管 PHP 的 错误 处 理 ， 
先前 代码 里 的 错误 抑制 @ 将 失效 ， 这 种 错误 也 会 被 显示 。 


在 PHP 异 常 中 ， 异 常 处 理 机 制 是 有 限 的 ， 无 法 目 动 抛 出 开 币 ， 必须 
手动 进行 ， 并 且 内 置 异常 有 限 。PHP 把 许多 异 币 看 做 错误 ， 这 样 束 可 以 
Ee 文 些 “ 异 常 ” 像 错误 一 样 用 set ”error _handler 接 管 ， 进 而 主动 抛 出 异 

。 代 码 如 下 所 示 : 





























functi stomError ($errno, $errstr, $errfile, $errline) 


全 全 A ty 
nl($level.’ |' .$ {errstr} ); 





set_ error_handler ("customError", E_ALL |E_STRICT) ; 


catch (Exception$e) 


echo' 错误 信息 : ' ，$e->>getMessage (); 
} 








这 样 孢 能 捕获 到 元 利和 非 致命 的 错误 ， 束 能 按照 1.6.1 节 里 讲述 的 方 
法 进行 处 理 了 ， 这 样 可 以 弥补 PHP 异 常 处 理 机 制 的 部 分 不 足 。 


这 种 “曲折 迁 回 ? 的 处 理 方式 存在 的 问题 就 是 : 必须 依靠 程序 员 目 己 











来 掌控 对 寞 第 的 处 理 ， 对 于 异常 蜗 及 区 、 敏 感 区 ， 如 末 程 友 员 处理 不 
好 ， 束 会 导致 前 面 所 提 到 的 业务 数据 不 一 致 的 问题 。 其 优点 在 于 ， 可 以 
获得 程序 运行 时 的 上 下 文 信息 ， 以 进行 针对 性 的 补救 。 


fetal error 这 样 的 错误 虽然 捕获 不 到 ， 也 无 法 在 发 生 此 错误 后 恢复 流 
程 处 理 ， 但 是 还 是 可 以 使 用 一 些 特殊 方法 对 这 种 错误 进行 处 理 的。 这 需 
要 用 到 一 个 函数 一 一 register _ ow function， 此 函数 会 在 PHP 程 序 
终止 或 者 die 时 触发 一 个 函数 ， 给 PHP 来 一 个 短暂 的 “回光返照 >”。 在 PHP 
类 不 文 持 析 构 函数 ， 常用 这 个 函 数 模拟 实现 析 构 函数 。 实 例 

中 下: 








= hp 

class Shutdown 

public function stop () 

{ 

if (error get last ()) 

{ 

print_r (error get last () ) ; 
} 

die (' stop.’ ); 

} 

} 

register shutdown_ function (array (new Shutdown (), ' Stop” ) ) ， 


$a=new a ，// 将 因为 致命 错 误 而 失败 
echo' 必须 终 





可 以 运行 看 看 效果 。 对 于 fetal error 还 能 做 点 收尾 工作 ， 但 是 PHP 流 
程 的 终止 是 必然 的 。 对 于 Parse ” ”error 级 别 的 错误 ， 你 只 有 傻眼 了 ， 除 了 
可 以 修改 配置 文件 php.ini， 什 么 都 做 不 了 ， 修 改 的 内 容 如 下 : 





10g_errors 
error -10020 BT log 





这 样 一 旦 PHP 发 生 了 错误 ， 就 会 被 记 入 log 文 件 ， 方 便 以 后 查询 。 


ns 似 ， 错 误 处 理 也 有 对 应 抛 出 错误 的 函数 ， 那 就 是 
trigger error 水 数 ， 如 下 所 示 : 





==0) { 
trigger_error ("Cannot divide by zero", E_USER ERROR); 


echo’' break’ ; 





关于 错误 处 理 ， 主 要 束 是 这 些 内 容 ， 还 有 一 些 错 误 处 理 和 调试 相 
天 ， 我 们 将 会 放 到 后 面 的 章节 进行 讲解 。 





提示 ”在 PHP 中 ， 错 误 和 异常 是 两 个 不 同 的 概念 ， 这 种 设计 从 根本 
上 导致 了 了 PHP 的 异常 和 其 他 语言 相 异 。 以 Java 为 例 ，Java 中 ， 异 销 是 错 
误 唯 一 的 报告 方式 。 说 到 底 ， 两 者 的 区 别 就 是 对 异常 和 错误 的 认识 不 同 
而 产生 的 。PHP 的 异常 绝 大 部 分 必须 通过 某 种 办 法 手动 抛 出 ， 才 能 被 捕 
获 到 ， 是 一 种 半自动 化 的 异常 处 理 机 制 |。 


无 论 是 错误 还 是 异常 ， 都 可 以 使 用 handler 接 管 系统 已 有 的 处 理 机 








制 |。 


1.7 本 章 小 结 


本 章 主 要 介绍 面向 对 象 思想 的 程序 的 组 成 元 素 一 一 类 和 对 象 。 类 是 
一 个 动作 和 属性 的 模板 ， 对 象 是 数据 的 集合 。 结 合 PHP 目 号 实际 情况 ， 
独 重 讲述 PHP 里 面 癌 对 象 的 一 些 比较 模糊 的 知识 点 ， 包 括 魔术 方法 、 接 
口 、 多 态 、 类 的 复 用 、 反 射 、 异 常 机 制 等 。 接 口 是 一 种 类 型 ， 从 接口 的 
实现 讲述 接口 是 怎么 实现 “ 即 插 即 用 ”的 。 


然后 ， 对 寞 第 机 制 进行 探讨 。 讲 述 腊 常 应 该 是 什么 样 的 ， 应 该 怎么 
用 ， 并 且 阐 述 了 PHP 中 的 异常 为 什么 会 这 样 ， 应 该 在 什么 场合 使 用 异常 
等 。PHP 起 初 没 有 异 币 机 制 ， 后 期 为 了 进 车 企业 级 开发 ， 才 模仿 Java 加 
进去 的 ， 故 有 了 错误 处 理 和 异常 处 理 的 并 存 ， 这 种 形式 导致 PHP 和 异常 处 
理 不 伦 不 类 ， 通 过 和 Java 对 比 ， 让 我 们 了 解 到 了 异常 的 真实 含义 。 错 误 
处 理 是 对 异常 处 理 的 一 种 补充 。 


到 底面 向 过 程 和 面向 对 象 恕 优 绒 务 呢 ?答案 是 : 二 者 间 并 无 高 低 优 
劣 之 别 ， 它 们 各 有 优 务 。 


其 实在 OO 友 展 中 ， 烘 露出 一 些 问题 ， 如 深入 对 象 内 部 读 写 状态 存 
在 的 困难 ， 现 实 和 开发 中 不 对 应 造成 的 建 模 困 难 ， 数 据 与 逻辑 绑 定 造成 
的 类 型 脆 有 种。 比如 前 面 提 到 的 反射 ， 束 是 因为 面 癌 对 象 的 封闭 导致 读 写 
内 部 状态 比较 困难 而 产生 的 。 


面向 对 象 存在 的 问题 是 越 来 越 多 的 语言 引入 函数 式 编 程 的 特征 ， 如 
闭 包 、 回 调 等 。PHP 也 引入 一 些 函 数 式 编程 的 概念 ， 有 兴趣 的 读者 可 以 
自行 研究 。 














第 2 草 ” 面 问 对 象 的 设计 原则 


第 1 章 ”已 经 说 过 ， 面 回 对 象 是 一 种 高 度 抽象 的 思维 。 在 面 癌 对象 
设计 中 ， 类 是 基本 单位 ， 各 种 设计 都 是 围 经 着 类 来 进行 的 。 可 以 说 ， 类 
与 类 之 间 的 关系 ， 构 成 了 设计 模式 的 大 部 分 内 容 。 


在 初学 阶段 ， 可 以 认为 类 束 是 属性 + 函数 组 成 的 ， 实 际 上 在 抵 层 存 
储 上 也 确实 是 这 样 的 ， 但 是 ， 这 些 仅 仅 是 确定 一 个 独立 的 类 。 而 类 与 类 
之 间 的 关系 是 设计 模式 所 要 探讨 的 内 容 。 


经 典 的 设计 模式 有 23 种 ， 每 种 都 是 对 代码 复 用 和 设计 的 总 结 ， 就 设 
计 模 式 而 言 ， 除 了 熟 读 GOF 经 典 外， 推荐 《敏捷 软件 开发 一 原则 、 方 
法 与 实践 》 一 书 。 本 章 并 不 就 具体 的 设计 模式 展开 讨论 ， 而 是 讨论 一 些 
基本 的 设计 原则 ， 并 给 出 一 些小 的 实例 ， 最 后 ， 作 为 前 两 章 的 总 结 ， 控 
讨 一 下 PHP 中 的 面向 对 象 的 一 些 问题 。 


2.1 面 回 对 象 设计 的 五 大 原则 


在 面向 对 象 的 设计 中 ， 如 何 通 过 很 小 的 设计 改变 就 可 以 应 对 设计 需 
求 的 变化 ， 这 是 设计 者 极为 关注 的 问题 。 为 此 不 少 OO 先 驱 提 出 了 很 多 
有 关 面 向 对 象 的 设计 原则 用 于 指导 OO 的 设计 和 开发 。 下 面 是 几 条 与 类 
设计 相关 的 设计 原则 。 


面 同 对 象 设计 的 五 大 原则 分 别 是 单一 职责 原则、 接口 隔离 原则 、 开 
0 蔡 换 原则 、 依 赖 倒置 原则 。 这 五 大 原则 也 是 23 种 设计 模 
式 的 基础 二。 


2.1.1 单一 职员 原则 


亚当 -斯 密 曾 就 制 针 业 做 过 一 个 分 工 产 生效 率 的 例子 5。 对 于 一 个 没 
有 受过 相应 训练 ， 又 不 知道 怎样 使 用 这 种 职业 机 械 的 工人 来 讲 ， 即 使 他 
竟 尽 全 力 地 工作 ， 也 许 一 天 连 一 根 针 也 生产 不 出 来 ， 当 然 更 生产 不 出 20 
根 针 了 。 但 是 ， 如 果 把 这 个 行业 分 成 各 种 专门 的 组 织 ， 再 把 这 种 组 织 分 
成 许多 个 部 门 ， 其 中 大 部 分 部 门 也 同样 分 为 专门 的 组 织 。 把 制 针 分 为 18 
种 不 同 工 序 ， 这 18 种 不 同 操作 由 18 个 不 同 工 人 来 担任 。 那 么 ， 尽 管 他 们 
的 机 器 设备 部 很 差 ， 但 他 们 尽力 工作 ， 一 天 也 能 生产 12 磅 针 。 每 磅 中 等 
































型 邱 针 有 4000 根 ， 控 这 个 数字 计算 ， 十 多 个 人 每 天 束 可 以 制造 48000 根 
针 ， 而 每 个 人 每 天 能 制造 4800 根 针 。 如 果 他 们 各 目 独 立地 工作 ， 谁 也 不 
专 学 做 一 种 专门 的 业务 ， 那 么 他 们 之 中 无 论 是 谁 都 绝 不 可 能 一 天 制造 20 
根 针 ， 也 许 连 1 根 针 也 制造 不 出 来 。 这 就 是 企业 管理 中 的 分 工 ， 在 面 回 
对 象 的 设计 里 ， 叫 做 单一 职责 原则 〈Single PesponsibilityPrinciple, 
SRP) . 


在 《敏捷 软件 开发 》 中 ， 把 “职责 ”定义 为 “变化 的 原因 ”， 也 束 是 
说 ， 就 一 个 类 而 言 ， 应 该 只 有 一 个 引起 它 变 化 的 原因 。 这 是 一 个 最 简 
单 ， 最 容易 理解 却 最 不 容易 做 到 的 一 个 设计 原则 。 说 得 简单 一 点 ， 就 是 
怎样 设计 类 以 及 类 的 方法 界定 的 问题 。 这 种 问题 是 很 普遍 的 ， 比 如 在 
MVC 的 框架 中 ， 很 多 人 会 有 这 样 的 疑惑 ， 对 于 表单 插入 数据 库 字 段 过 
滤 与 安全 检查 应 该 是 放 在 control 层 处 理 还 是 model 层 处 理 ， 这 类 问题 都 
可 以 归 到 单一 职责 的 范围 。 


再 比如 在 职员 类 里 ， 将 工程 师 、 销 售 人 员 、 销 售 经 理 等 都 放 在 职员 
类 里 考虑 ， 其 结果 将 会 非常 混乱 。 在 这 个 假设 下 ， 职 员 类 里 的 每 个 方法 
都 要 用 if..….…..else 判 断 是 哪 种 情况 ， 从 类 结构 上 来 说 将 会 十 分 爱 肿 ， 并 且 
上 述 三 种 职员 类 型 ， 不 论 哪 一 种 发 生 需求 变化 ， 都 会 改变 职员 类 ， 这 是 
我 们 所 不 愿意 看 到 的 ! 


从 上 面 的 描述 中 应 该 能 看 出 ， 单 一 职责 有 两 个 含义 : 一 个 是 避免 相 
同 的 职 贡 分 散 到 不 同 的 类 中 ， 男 一 个 是 避免 一 个 类 承担 太 多 职 贡 。 


那 为 什么 要 遵守 SRP 呢 ? 

(1) 可 以 减少 类 之 间 的 耘 合 

如 采 减 少 类 之 间 的 耘 合 ， 当 需求 变化 时 ， 只 修改 一 个 类 ， 从 而 也 束 
隔离 了 变化 ;如 果 一 个 类 有 多 个 不 同 职责 ， 它 们 耦合 在 一 起 ， 当 一 个 职 
责 发 生变 化 时 ， 可 能 会 影响 其 他 职员。 

(2) 提高 类 的 复 用 性 

修理 电脑 比 修理 电视 机 简单 多 了 。 主 要 原因 就 在 于 电视 机 各 个 部 件 
之 间 的 耦合 性 太 高 ， 而 电脑 则 不 同 ， 电 脑 的 内 存 、 硬 盘 、 声 卡 、 网 卡 、 


键盘 灯 部 件 都 可 以 很 容易 地 单独 拆卸 和 组 装 。 某 个 部 件 坏 了 ， 换 上 新 的 
印 可 。 























上 面 的 例子 就 体现 了 单一 职责 的 优势 。 由 于 使 用 了 单一 职责 ， 使 
得 “组 件 ? 可 以 方便 地 “ 拆 季 ”和 “组 闭 ”。 


不 遵守 SRP 会 影响 对 该 类 的 复 用 性 。 当 只 需要 复 用 该 类 的 某 一 个 职 
责 时 ， 由 于 它 和 其 他 的 职责 耦合 在 一 起 ， 也 丈 很 难 分 离 出 。 


如 守 SRP 在 实际 代码 开发 中 有 没有 什么 应 用 ? 有 的 。 以 数据 持久 层 
为 例 ， 所 谓 的 数据 持久 层 主要 指 的 是 数据 库 操 作 ， 当 然 ， 还 包括 缓存 管 
理 等 。 以 数据 库 操作 为 例 ， 如 果 是 一 个 复杂 的 系统 ， 那 么 束 可 能 涉及 多 
种 数据 库 的 相互 读 写 等 ， 这 时 束 需 要 数据 持久 层 文 持 多 种 数据 库 。 应 该 
怎么 做 ? 定义 多 个 数据 库 操作 类 ? 你 的 想法 已 经 很 接近 了 ， 再 进一步 ， 
就 是 使 用 工厂 模式 。 


工厂 模式 (Factory) 允许 你 在 代码 执行 时 实例 化 对 象 。 它 之 所 以 被 
称 为 工厂 模式 是 因为 它 负责 “生产 对象。 以 数据 库 为 例 ， 工 厂 需 要 的 就 
是 根据 不 同 的 参数 ， 生 成 不 同 的 实例 化 对 象 。 最 简单 的 工厂 就 是 根据 传 
入 的 类 型 名 实例 化 对 象 ， 如 传 入 MySQL， 就 调用 MySQL 的 类 并 实例 
化 ， 如 果 是 SQLite， 则 调用 SQLite 的 类 并 实例 化 ， 甚 至 可 以 处 理 TXT、 
Excel 等 “类 数据 库 ?。 工 厂 类 也 就 是 这 样 的 一 个 类 ， 它 只 负责 生产 对 象 ， 
而 不 负责 对 象 的 具体 内 容 。 


先 定义 一 个 接口 ， 规 定 一 些 通 用 的 方法 ， 如 代码 清单 2-1 所 示 。 
代码 清单 2-1 定义 一 个 适配器 接口 





























=? php 


@return resource 


* 执 行 数据 库 查 询 
*@param string $query 数据 库 查询 SQL 字 符 串 
*@param mixed$handle 连 接 对 象 

*@return resource* 

public function query ($query, $handle); 
站 


这 是 一 个 简化 的 接口 ， 并 没有 提供 所 有 方法 ， 其 定义 了 MySQL 数 
据 库 的 操作 类 ， 这 个 类 实现 了 Db_Adapter 接 口 ， 有 具体 如 代码 清单 2-2 所 
示 。 





代码 清单 2-2 ”定义 MySQL 数 据 库 的 操作 类 





=? php 

class Db_Adapter_ Mysql implements Db_Adapter 
{ 

private$_dbLink; // 数 据 库 连 接 字符 串 标示 

/** 

* 数 据 库 连接 函数 

x 


*@param$ config 数 据 库 配置 

*@throws Db_Exception 

*@return resource*/ 

public function connect ($config) 

{ 

if ($this->_ dbLink=@mysql connect ($config->host. 

(empty ($config->port)?'’:’:' .$config->port), 
$config->user, $config->password, true)) { 

if (@mysql select_ db ($config->database, $ this->_ dbLink) ) { 
if ($config->charset) { 

mysql_ query ("SET NAMES’ {$config->charset} ’", $this->_ dbLink); 
站 


return$this->_dbLink; 

}: 

/** 数 据 库 异 常 */ 

throw new Db_Exception (@mysql error ($this->_dbLink) ); 
} 

/x 

* 执 行 数据 库 查 询 

x 


*@param string $query 数据 库 查询 SQL 字 符 串 
*@param mixed$handle 连 接 对 象 

*Q@return resource 

SE 

public function query ($query, $handle) 
{ 

if ($resource=@mysql query ($query, S$handle)) { 
return$ resource:; 

小 

中 

3 





接 下 来 是 SQLite 数 据 库 的 操作 类 ， 同 样 实现 了 Db Adapter 接 口 ， 
如 代码 清单 2-3 所 示 。 


代码 清单 2-3 SQLite 数据 库 的 操作 类 





过 ”php 

class Db_Adapter_sqlite implements Db_ Adapter 
{ 

private$_dbLink; // 数 据 库 连接 字符 串 标 示 

/** 

* 数 据 库 连接 函数 

*@param$ config 数 据 库 配置 

*@throws Db_Exception 

*Q@return resource*/ 

public function connect ($config) 

{ 

if ($this->_dblink=sqlite open ($config->file, 0666, $error)) { 
return$ this->_ dblink; 


让 

/** 数 据 库 异 常 */ 

throw new Db_Exception ($error) ， 

站 

xx 

* 执 行 数据 库 查 询 

*@param string $query 数据 库 查询 SQL 字 符 串 
*@param mixed$handle 连 接 对 象 

*Q@return resource 

SA 

public function query ($query, $handle) 
{ 

if ($resource=@sqlite query ($query, $handle)) { 
return$ resource: 

} 

: 

} 





好 了 ， 如 采 现 在 需要 一 个 数据 库 操 作 的 方法 的 话 怎么 做 ?” 只 需 定 


0 
修 。 


代码 清单 2-4 ”定义 一 个 工厂 类 





<=? php 
class sqlFactory 
{ 


public static function factory ($type) 
{ 
if (include once’ Drivers/’ .$type.’ .php’ ) { 
$classname=’ Db_ Adapter ' .$type: 
n new$ classname; 


e 
hrow new Exception (' Driver not found’ ) ， 





要 调用 时 ， 就 可 以 这 么 写 : 





$db=sqlFactory: factory (’ My: 
$db=sqlFactory: factory (' SQLite' ) ， 


我 们 把 创建 数据 库 连 接 这 块 程 序 单独 拿 出 来 ， 程 序 中 的 CURD 就 不 
用 关心 是 什么 数据 库 了 ， 只 要 按照 规范 使 用 对 应 的 方法 即 可 。 


工厂 方法 让 具体 的 对 象 解脱 了 出 来 ， 使 其 并 不 再 依赖 具体 的 类 ， 而 
是 抽象 。 除 了 数据 库 操 作 这 种 显而易见 的 设计 外 ， 还 有 什么 地 方 会 用 到 
工厂 类 呢 ? 那 就 是 SNS 中 的 动态 实现 。 


下 面 的 图 片 来 自 国内 某 SNS 网 站 ， 属 于 当前 新 鲜 事 页 面 ， 可 以 看 到 
针对 不 同行 为 ， 其 生成 了 不 同 动态 。 比 如 ， 参 加 了 某 个 小 组 ， 动 态 显示 
的 就 是 “XX 参加 了 YY 小 组 ”， 收 到 某 某 的 礼物 ， 别 人 看 到 的 多 台 就 
是 “XX 收 到 了 YY 的 ZZ 礼物 ”， 如 图 2-1 所 示 。 


以 上 这 种 动态 应 该 怎么 设计 呢 ， 最 容易 想到 的 就 是 用 工厂 模式 ， 根 
据 传 入 的 操作 不 同 ， 络 合 模 板 而 生成 不 同 的 动态 ， 如 代码 清单 2-5 所 
外。 














| 若水 收 到 了 一 个 ITA 送 的 2012 来 瞄 


Le 礼 柯 旺 私下 医 出 的 中 上 要 是 现 知 痢 伯 们 说 了 神 马 ,就 决 去 拉练 着 订 
| 和 儿 填 一 下 吧 ~~ 
| 


|2011-12-31 20:53 收 想 回复 | 狗 离 湛 礼 | 送 TA 一 个 


| 着 水 参加 了 小 细 Team_Agorthmsl 
| 本 小 组 讨论 c、c++、]ava 、algorthms 相 关 ， 致力 于 提高 算 
洁 技 能 ， 共 向 美好 生活 ， 人 欢迎 各 位 加 六 








| 
et 谷 加 145 个 帖子 
10-17 22:22 我 要 着 加 | 分享 





| 甘 水 已 与 刘 间 自 交换 名 片 。 
|2011-09-04 ) 资 看 有 片 
| 


图 2-1 某 SNS 网 站 的 动态 展示 
代码 清单 2-5 工厂 模式 








=bead id="feedServiceFactory"class="FeedServiceFactory"> 
=property name="feedMap"> 
=map> 


<entry key="friend"value-ref="friendFeed"/> 
<entry key="album"value-ref="albumFeed"/> 
<entry key="reply"value-ref="replyFeed"/> 
<entry key="share"value-ref="shareFeed"/> 
<entry key="video"value-ref="videoFeed"/> 
<entry key="group"value-ref="groupFeed"/> 
=/map> 

=/property> 

=/bean> 





以 上 代码 是 一 个 动态 的 生成 配置 ， 通 过 FEED 的 类 型 匹配 到 key， 取 
到 对 应 的 bean， 然 后 创建 不 同 的 动态 ， 用 的 就 是 工厂 模式 。 


设计 模式 里 面 的 命 令 模 式 也 是 SRP 的 体现 ， 命令 模式 分 离 “ 命 令 的 

请 求 者 "和 “命令 的 实现 者 ”方面 的 职责 。 举 一 个 很 好 理解 的 例子 ， 就 是 
你 去 餐馆 吃饭 ， 和 餐馆 存在 顾客 、 服 务 员 、 厨 师 三 个 角色 。 作 为 顾客 ， 你 
只 要 列 出 菜单 ， 传 给 服务 员 ， 由 服务 员 通 知 厨师 去 实现 。 作 为 服务 员 ， 
只 需要 调用 准备 饭菜 这 个 方法 (对 厨师 大 喊 “ 该 炒菜 了 ”) ， 厨 师 听 到 要 
i 就 立即 去 做 饭 。 在 这 里 ， 命 令 的 请 求 和 实现 就 完成 了 解 


模拟 这 个 过 程 ， 首 先 定义 厨师 角色 ,厨师 进行 实际 的 做 饭 、 烧 汤 的 
工作 。 详 细 代 码 如 代码 清单 2-6 所 示 。 











代码 清单 2-6 ”餐馆 的 示例 





/xx 
A 命令 接受 者 与 执行 者 
i cook { 


public function meal () { 
echo' 番茄 炒 鸡蛋 ' ，PHP__EOL; 
} 


public function drink () { 

echo” 紫菜 蛋 花 汤 ' ，PHP_EOL， 

} 

public function ok () { 
ho” 完毕” ，PHP_E0OL; 

}:3} 

// 然 后 是 命令 接口 

interface Command { 


// 命 令 接口 
public function execute () ; 
} 





现在 轮 到 服务 员 出 场 ， 服 务 员 是 命令 的 传送 者 ， 通 常 你 到 饭馆 吃饭 
都 是 叫 服 务 员 吧 ， 不 可 能 直接 叫 厨 师 ， 一 般 都 是 叫 “ 服 务 员 ， 给 我 来 各 
番茄 炒 西红柿 >， 而 不 会 直接 叫 “ 厨 师 ， 给 我 来 盘 番 而 炒 西 红 柿 >。 所 
以 ， 服 务 员 是 顾客 和 厨师 之 间 的 命令 沟通 者 。 模 拟 这 个 过 程 的 代码 如 代 
码 清 单 2-7 所 示 。 


代码 清单 2-7 ”模拟 服务 员 与 厨师 的 过 程 








class MealCommand implements Command { 
private $ cook; 

// 绑 定 命令 接受 者 

public function construct (cook $cook) { 
hss >cook=$ cook; 


和 function execute () { 
Ss >cook->meal () ; // 把 消息 传递 给 厨师 ， 让 厨师 做 饭 ， 下 同 


} 

class DrinkCommand implements Command { 
private $ cook; 

// 绑 定 命令 接受 者 

public function construct (cook $cook) { 
$ this->cook=$ cook:; 


public function execute () { 
$this->cook->drink (); 
3 





现在 顾客 可 以 按照 闲 单 叫 服务 员 了 ， 如 代码 清单 2-8 所 示 。 
代码 清单 2-8 ”模拟 顾客 与 服务 员 的 过 程 





class cookControl { 

private $ mealcommand; 

private $ drinkcommand; 

// 将 命令 发 送 者 绑 定 到 命令 接收 器 上 面 来 

public function addcommand (Command $ mealcommand, Command$ drinkcommand) { 
$this->mealcommand=$ mealcommand; 

$this->drinkcommand=$ drinkcommand; 

} 


public function callmeal () { 
$this->mealcommand->execute () ; 


} 
public function calldrink () { 


$this->drinkcommand- >execute () ; 
下 守 





好 了 ， 现 在 完成 整个 过 程 ， 如 代码 清单 2-9 所 示 。 


代码 清单 2-9 ”实现 命令 模式 





$ 

$ cook=new cook; 

$mealcomman d=new MealComman d ($cook); 
$drinkcomman d=new DrinkComman d ($cook) 
$con $meal 
$ 
$ 





从 上 面 的 例子 可 以 看 出 ， 原 来 设计 模式 并 非 纯 理 论 的 东西 ， 而 是 来 
源 于 实际 生活 ， 惑 连 普通 的 餐馆 老板 都 懂 设 计 模 陈 这 门 看 似 高 深 的 学 
问 。 其 实 ， 在 经 济 和 管理 活动 中 ， 对 流程 的 优化 就 是 对 各 种 设计 模式 的 
摸索 和 实践 。 所 以 ， 设 计 模 式 并 非 计算 机 编程 中 的 专利 。 事 实 上 ， 设 计 
模式 的 起 源 不 是 计算 机 学 科 ， 而 是 源 于 建筑 学 。 


在 设计 模式 方面 ， 不 仅 以 上 这 两 种 体现 了 SRP， 还 有 别 的 《比如 代 
理 模 式 ) 也 体现 了 SRP。SRP 不 只 是 对 类 设计 有 意义 ， 对 以 模块 、 子 系 
统 为 单位 的 系统 架构 设计 同样 有 意义 。 


模块 、 子 系统 也 应 该 仅 有 一 个 引起 它 变 化 的 原因 ， 如 MVC 所 倡导 
的 各 个 层 之 间 的 相互 分 离 其 实 就 是 SRP 在 系统 总 体 设 计 中 的 应 用 。 图 2-2 
古来 自 CI 框 架 的 流程 图 。 

SRP 是 最 简单 的 原则 之 一 ， 也 是 最 难 做 好 的 原则 之 一 。 我 们 会 很 目 
人 
目的 。 








| 
| index.php 





图 2-2 MVC 中 的 流程 


一 些 简 单 的 应 该 遵循 的 做 法 如 下 : 


根据 业务 流程 ， 把 业务 对 象 提炼 出 来 。 如 果 业 务 流 层 的 链 路 太 复 
杂 ， 就 把 这 个 业务 对 象 分 离 为 多 个 单一 业务 对 象 。 当 业务 链 标 准 化 后 ， 
对 业务 对 象 的 内 部 情况 做 进 全 步 处 理 。 把 第 一 次 标准 化 视 为 最 高 层 抽 
象 ， 第 二 次 视 为 次 高 层 抽象 ， 以 此 类 推 ， 直 到 “恰如其分 ”的 设计 层次 。 


职 贡 的 分 类 需要 注意 。 有 业务 职责 ， 还 要 有 脱离 业务 的 抽象 职责 ， 
从 认识 业务 到 抽象 算法 是 一 个 层 层 递 进 的 过 程 。 就 好 比 命令 模式 中 的 顾 
客 ， 服 务 员 和 厨师 的 职责 ， 作 为 老板 〈 即 设计 师 〉 的 你 需要 规划 好 各 目 
的 职 贡 范围 ， 既 要 防止 越 姐 代 让 ， 也 要 防止 互相 推 评 。 


[这 些 原则 主要 是 由 Robert C.Martin 在 《敏捷 软 
与 实践 》 一 书 中 总 结 出 来 的 。 
[2] 见 《国富 论 》 第 1 章 ， 分工 理 论 是 亚当 :斯 密 的 一 个 重要 经 济 理论 。 











蛛 则 、 方 法 





2.1.2 ”接口 隔离 原则 


设计 应 用 程序 的 时 候 ， 如 果 一 个 模块 包含 多 个 子 模块 ， 那 么 我 们 应 
该 小 心 对 该 模块 做 出 抽象 。 设 想 该 模块 由 一 个 类 实现 ， 我 们 可 以 把 系统 
抽象 成 一 个 接口 。 但 是 要 添加 一 个 新 的 模块 扩展 程序 时 ， 如 果 要 添加 的 
模块 只 包含 原 系统 中 的 一 些 子 模 块 ， 那 么 系统 束 会 强迫 我 们 实现 接口 中 
的 所 有 方法 ， 并 且 还 要 编写 一 些 哑 方 法 。 这 样 的 接口 被 称 为 胖 接 口 或 者 
被 污染 的 接口 ， 使 用 这 样 的 接口 将 会 给 系统 引入 一 些 不 当 的 行为 ， 这 些 
不 当 的 行为 可 能 导致 不 正确 的 结果 ， 也 可 能 导致 资源 浪费 。 


1. 接 口 隔离 














接口 隔离 原则 (Interface Segregation Principle，ISP) 表明 客户 端 不 
应 该 被 强迫 实现 一 些 他 们 不 会 使 用 的 接口 ， 应 该 把 胖 接 口中 的 方法 分 
组 ， 然 后 用 多 个 接口 代 蔡 它 ， 每 个 接口 服务 于 一 个 子 模块 。 简 单 地 说 ， 
就 是 使 用 多 个 专门 的 接口 比 使 用 单个 接口 要 好 得 多 。 


ISP 的 主要 观点 如 下 : 
1) 一 个 类 对 另外 一 个 类 的 依赖 性 应 当 是 建立 在 最 小 的 接口 上 的 。 


ISP 可 以 达到 不 强迫 客户 《接口 的 使 用 方 ) 依赖 于 他 们 不 用 的 方 
法 ， 接 口 的 实现 类 应 该 只 呈现 为 单一 职 贡 的 角色 如 守 SRP 原 则 〉。 


ISP 还 可 以 降低 客户 之 间 的 相互 影响 当 某 个 客户 程序 要 求 提供 
A 0 
可 能 性 会 最 小 。 


2) 客户 端 程序 不 应 该 依赖 它 不 需要 的 接口 方法 〈 功 能 
客户 端 程序 不 应 该 依赖 它 不 需要 的 接口 方法 (功能 ) ， 那 依赖 什 


么 ?依赖 它 所 需要 的 接口 。 客 户 亲 需要 什么 接口 就 提供 什么 接口 ， 把 不 
需要 的 接口 吻 除 ， 这 就 要 求 对 接口 进行 细 化 ， 保 证 其 纯洁 性 。 


比如 在 应 用 继承 时 ， 由 于 子 类 将 继承 父 类 中 的 所 有 可 用 的 方法 ; 而 
父 类 中 的 共 些 方法 ， 在 子 类 中 可 能 并 不 需要 。 例 如 ， 普 通 员 工 和 经 理 都 
继承 目 雇员 这 个 接口 ， 员 工 需要 每 天 写 工作 日 志 ， 而 经 理 则 不 需要 。 因 



































此 不 能 用 工作 日 志 来 卡 经 理 ， 也 就 是 经 理 不 应 该 依赖 于 提交 工作 日 志 这 
Da 

可 以 看 出 ，ISP 和 SRP 在 概念 上 是 有 一 定 交 叉 的 。 事 实 上 ， 很 多 设 
计 恒 式 在 概念 上 都 有 交叉， 甚 全 你 很 难 判断 一 段 代码 属于 哪 一 种 设计 模 


式 。 








ISP 强 调 的 是 接口 对 客户 端的 承 话 越 少 越 好 ， 并 且 要 做 到 专 一 。 当 
某 个 客户 程序 的 要 求 发 生变 化 ， 而 迫使 接口 发 生 改变 时 ， 影 响 到 其 他 客 
户 程序 的 可 能 性 小 。 这 实际 上 融 是 接口 污染 的 问题 。 


2. 对 接口 的 污染 
过 于 及 肿 的 接口 设计 是 对 接口 的 污染 。 上 所 谓 接口 污染 就 是 为 接口 添 


加 不 必要 的 职责 ， 如 果 开 发 人 员 在 接口 中 增加 一 个 新 功能 的 主要 目的 只 
是 减少 接口 实现 类 的 数目 ， 则 此 设计 将 导致 接口 被 不 断 地 污染 "并 “ 变 
胖 "。 





接口 污染 会 给 系统 禹 来 维护 困难 和 重用 性 差 等 方面 的 问题 。 为 了 能 
0 
2 

“接口 隔离 ?其 实 就 是 定制 化 服务 设计 的 原则 。 使 用 接口 的 多 重 继承 
和 达到 “ 按 需 提供 
服务 ”。 


看 下 耐 这 个 例子 ， 如 图 2-3 所 示 。 
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图 2-3 存在 污染 的 接口 设计 





客户 A 需 要 A 服 务 ， 只 要 针对 客户 A 的 方法 及 生 改 变 ， 客 户 B 和 客户 
C 就 会 受到 影响 。 故 这 种 设计 需要 对 接口 进行 隅 离 ， 如 图 2-4 所 示 。 


























一 子 服 务 接口 A Xx 
上 的 服务 AD) 汪 | 
OO< 证 
客户 B 服务 接口 B 一 
信服 务 BI() 杂 
客户 C 
i Ss 一 
服务 接口 C 
令 服 务 C() 





图 2-4 减少 接口 中 的 污染 


由 图 2-4 可 知 ， 如 果 和 针对 客户 A 的 方法 发 生 改变 ， 客 户 B 和 客户 C 并 
不 会 受到 任何 影响 。 你 可 能 会 想 ， 这 样 做 接口 那 吕 不 是 会 很 多 ? 这 个 问 
题 问 得 很 好 ， 接 口 既 要 拆 ， 但 也 不 能 拆 得 太 细 ， 这 就 得 有 个 标准 ， 这 束 
An 接口 应 该 具备 一 些 基本 的 功能 ， 能 独 一 完 成 一 个 基本 的 任 











图 2-4 所 示 只 是 个 抽象 的 例子 ， 在 实际 应 用 中 ， 会 遇 到 如 下 问题 : 
比如 ， 我 需要 一 个 能 适 配 多 种 类 型 数据 库 的 DAO 实 现 ， 那 么 首先 应 实现 
一 个 数据 库 操作 的 接口 ， 其 中 规定 一 些 数据 库 操 作 的 基本 方法 ， 如 连接 
数据 库 、 增 删 查 改 、 关 闭 数据 库 等 。 这 是 一 个 最 少 功 能 的 接口 。 对 于 一 
些 MySQL 中 特有 的 而 其 他 数据 库 不 具有 或 性 质 不 同 的 方法 ， 如 PHP 里 可 
能 用 到 的 MySQL 的 pconnect 方 法 ， 其 他 数据 库 里 并 不 存在 和 这 个 方法 相 
同 的 概念 ， 这 个 方法 也 就 不 应 该 出 现在 这 个 基本 的 接口 里 ， 那 这 个 基本 
的 接口 应 该 有 哪些 基本 的 方法 呢 ? PDO 已 经 告诉 你 了 。 


PDO 是 一 个 抽象 的 数据 接口 层 ， 它 告诉 我 们 一 个 基本 的 数据 库 操作 
接口 应 该 实现 哪些 基本 的 方法 。 接 口 是 一 个 高 层次 的 抽象 ， 所 以 接口 里 
的 方法 应 该 是 通用 的 、 基 本 的 、 不 易 变 化 的 。 


还 有 一 个 问题 ， 那 些 特有 的 方法 应 该 上 怎么 实现 ?根据 ISP 原 则 ， 这 
些 方法 可 以 在 男 一 个 接口 中 存在 ， 让 这 个 “异类 ”同时 实现 这 两 个 接口 。 




















对 于 接口 的 污染 ， 可 以 考虑 下 面 这 两 条 处 理 方式 : 

利用 委托 分 离 接 口 。 

利用 多 继承 分 离 接口 。 

委托 模式 中 ， 有 两 个 对 象 参 与 处 理 同 一 个 请 求 ， 接 受 请 求 的 对 象 将 
请 求 委 托 给 男 一 个 对 象 来 处 理 ， 如 策略 模式 、 代 理 模式 等 中 都 应 用 到 了 
0 
细 讲 了 。 


利用 多 继承 分 离 接 口 ， 在 接口 一 节 也 做 了 相应 的 讲解 ， 这 里 不 再 重 





2.1.3 ”开放 -封闭 原则 
1. 什 么 是 “开放 -封闭 ” 


随 着 软件 系统 的 规模 不 断 增 大 ， 软 件 系 统 的 维护 和 修改 的 复杂 性 不 
斯 提高 ， 这 种 困境 促使 法 国 工程 院 院士 Bertrand ”Meyer 在 1998 年 提出 
了 “开放 -封闭 ”(Open Close Principle,，OCP) 原则 ， 这 条 原则 的 基本 思 
肯定 : 


St 


4 


Open (Open for extension) 模块 的 行为 必须 是 开放 的 、 文 持 扩展 
的 ， 而 不 是 僵化 的 。 


Closed (Closed for modification) 在 对 模块 的 功能 进行 扩展 时 ， 不 
应 该 影响 或 大 规模 地 影响 已 有 的 程序 模块 。 


换 句 话说 ， 也 就 是 有 要求 开 发 人 员 在 不 修改 系统 中 现 有 功能 代码 《〈 源 
代码 或 者 二 进 制 代码 ) 的 前 提 下 ， 实 现 对 应 用 系统 的 软件 功能 的 扩展 。 
用 一 句 话 概括 就 是 : 一 个 模块 在 扩展 性 方面 应 该 是 开放 的 而 在 更 改 性 方 
面 应 该 是 封闭 的 。 


从 生活 中 ， 最 容易 想到 的 例子 束 古 电脑 ， 我 们 可 以 轻松 地 对 电脑 进 
行 功能 的 扩展 ， 而 只 需 通 过 接口 连 入 不 同 的 设备 。 


开放 - 封 财 能 够 提高 系统 的 可 扩展 性 和 可 维护 性 ， 但 这 也 是 相对 

的 ， 对 于 一 合 电脑 不 可 能 完全 开放 ， 有 些 设 备 和 功能 必须 保持 稳定 才能 
减少 维护 上 的 困难 。 要 实现 一 项 新 的 功能 ， 你 惑 必须 升级 硬件 ， 或 者 换 
一 台 更 高 性 能 的 电脑 。 以 电脑 中 的 多 媒体 播放 软件 为 例 ， 作 为 一 球 播放 
器 ， 应 该 具有 一 些 基 本 的 、 通 用 的 功能 ， 如 打开 多 媒体 文件 ， 停 止 播 
放 、 快 进 、 音 量 调节 等 功能 。 但 不 论 是 什么 播放 如， 不 论 是 在 什么 平台 
下 ， 遵 循 这 个 原则 设计 的 播放 器 都 应 具有 统一 风格 和 操作 习惯 ， 无 论 换 
用 哪 一 天 播放 器 ， 都 应 保证 操作 者 能 快速 上 手 。 


以 播放 器 为 例 ， 先 定义 一 个 抽象 的 接口 ， 代 码 如 下 所 示 。 























人 
10 所 不 。 


代码 清单 2-10 ”实现 播放 器 的 编码 功能 





class playerencode implements process { 
public function process Sy t 
echo"encode \r \n 

: 


} 

class playeroutput implements process { 
public function process S() { 
echo"output \r \n 

} 


} 





对 于 播放 器 的 各 种 功能 ， 这 里 是 开放 的 ， 只 要 你 苯 照 约定 ， 实 现 了 
process 接 口 ， 束 能 给 播放 占 添 加 新 的 功能 模块 。 这 里 只 实现 解码 和 输出 
模块 ， 还 可 以 依据 需求 ， 加 入 更 多 新 的 模块 。 


接 下 来 为 定义 播放 器 的 线程 调度 管理 器 ， 播 放 器 一 旦 接收 到 通知 
(可 以 是 外 部 单 击 行 为 ， 也 可 以 是 内 部 的 notify 行 为 )， 将 回调 实际 的 
线程 处 理 ， 如 代码 清单 2-11 所 示 。 


代码 清单 2-11 播放 器 的 “调度 管理 器 ”* 





lass s playProcess { 


public function callback (event $event) { 
$ this message=$ ev ent->click (); 

if ( ->message instanceof process) { 
$this message->process () ; 

} 


} 








具体 的 产品 出 来 了 ， 在 这 里 定义 一 个 MP4 类 ， 这 个 类 是 相对 封闭 
的 ， 其 中 定义 事件 的 处 理 逻辑 ， 如 代码 清单 2-12 所 示 。 


代码 清单 2-12 ”播放 器 的 事件 处 理 人 逻辑 





class mp4 { 

public function work () { 

ay recess =new playProcess Ss 
$playProcess->callback (new event (' encode' ) ) ， 
SplAyProcess ->callback (new event (’ output’ ) ); 


| 





最 后 为 事件 分 拣 的 处 理 类 ， 此 类 负责 对 事件 进行 分 拣 ， 判 断 用 户 或 


内 部 行为 ， 以 产生 正确 的 “线程 >”， 供 播放 器 内 置 的 线程 管理 器 调度 ， 如 
代码 清单 2-13 所 示 。 


代码 清单 2-13 ”播放 器 的 事件 处 理 类 





e : 
eturn new playerencode () ; 
ea 











输出 结果 如 下 : 





encode output 





这 就 实现 了 一 个 基本 的 播放 器 ， 此 播放 器 的 功能 模块 是 对 外 开放 
的 ， 但 是 内 部 处 理应 该 是 相对 封闭 和 稳定 的 。 但 这 个 实现 还 存在 一 些 问 
上 ， 这 束 需 要 你 来 发 现 了 。 有 时 候 为 了 降低 系统 的 复 林 性 ， 也 会 不 完全 
刘 守 设计 模式 ， 而 是 对 其 进行 增删 改 。 

2. 如 何 遵守 开放 - 封 困 原则 

实现 开放 - 封 财 的 核心 思想 就 是 对 抽象 编程 ， 而 不 对 具体 编程 ， 因 
为 抽象 相对 稳定 。 让 关 依 赖 于 固定 的 抽象 ， 这 样 的 修改 就 是 封 困 的 ;而 
通过 面 同 对 象 的 继承 和 对 多 态 机 制 ， 可 以 实现 对 抽象 体 的 继承 ， 通 过 用 
ns 


1) 在 设计 方面 充分 应 用 “抽象 ?和 “封装 ”的 思想 。 

















一 方面 也 就 是 要 在 软件 系统 中 找 出 各 种 可 能 的 “可 变 因 素 ”， 并 将 之 
封闭 起 来 ; 


另 一 方面 ， 一 种 可 变性 因素 不 应 当 散落 在 多 个 不 同 代码 模块 中 ， 而 
应 当 被 封装 到 一 个 对 象 中 。 


2) 在 系统 功能 编程 实现 方面 应 用 面 癌 接口 的 编程 。 
当 需 求 友 生变 化 时 ， 可 以 提供 该 接口 新 的 实现 类 ， 以 求 适应 变化 。 


面向 接口 编程 要 求 功能 类 实现 接口 ， 对 象 声 明 为 接口 类 型 。 在 设计 
模式 中 ， 装 饰 模式 比较 明显 地 用 到 了 OCP。 











2.1.4 蔡 换 原则 


蔡 换 原则 由 MIT 计 算 机 科学 实验 室 的 Liskov 女 十 在 1987 年 的 
OOPSLA 大 会 上 的 一 篇 文章 《Data Abstraction and Hierarchy》 中 提出 ， 
主要 阐述 有 关 继 承 的 一 些 原则 ， 故 又 称 里 氏 蔡 换 原 则 。 


2002 年 ，Robert C.Martin 出 版 了 一 本 名 为 《Agile Software 
Development Principles Patterns and Practices》 的 书 ， 在 书 中 他 把 里 氏 代 
换 原 则 最 终 简化 为 一 句 话 : “Subtypes must be substitutable for their base 
types”。 〈 子 类 必须 能 够 蔡 换 成 它们 的 基 类 。 ) 


1.LSP 的 内 容 


里 氏 蔡 换 原 则 〈Liskov Substitution Principle, LSP) 的 定义 和 主要 的 
思想 如 下 : 由 于 面 同 对 象 编程 技术 中 的 继承 在 具体 的 编程 中 过 于 简单 ， 
在 许多 系统 的 设计 和 编程 实现 中 ， 我 们 并 没有 认真 地 、 理 性 地 思考 应 用 
系统 中 各 个 类 之 间 的 继承 关系 是 否 合适 ， 派 生 类 是 否 能 正确 地 对 其 基 类 
中 的 某 些 方法 进行 重 写 等 问题 。 因 此 经 稼 出 现 滥 用 继承 或 者 错误 地 进行 
了 继承 等 现象 ， 给 系统 的 后 期 维护 带 来 不 少 厅 烦 。 这 就 需要 我 们 有 一 个 
设计 原则 来 遵循 ， 它 就 是 蔡 换 原则 。 


LSP 指 出 : 子 类 型 必须 能 够 符 换 掉 它 们 的 父 类 型 、 并 出 现在 父 类 能 
够 出 现 的 任何 地 方 。 它 指导 我 们 如 何 正 确 地 进行 继承 与 派生 ， 并 合理 地 
重用 代码 。 此 原则 认为 ， 一 个 软件 实体 如 果 使 用 一 个 基 类 的 话 ， 那 么 一 
定 适用 于 其 子 类 ， 而 且 这 根本 不 能 察觉 出 基 类 对 象 和 子 类 对 象 的 区 别 。 
想 一 想 ， 是 不 是 和 第 一 章 提 到 的 多 态 的 概念 比较 像 ? 


2.LSP 主 要 是 针对 继承 的 设计 原则 

因为 继承 与 派生 是 OOP 的 一 个 主要 特性 ， 能 够 减少 代码 的 重复 编程 
实现 ， 从 而 实现 系统 中 的 代码 复 用 ， 但 如 何 正确 地 进行 继承 设计 和 合理 
地 应 用 继承 机 制 呢 ? 

这 就 是 LSP 所 要 解决 的 问题 : 


如 何 正确 地 进行 继承 方面 的 设计 ? 











最 佳 的 继承 层次 如 何 获得 ? 
怎样 避免 所 设计 的 类 层次 陷入 不 符合 OCP 原 则 的 状况 ? 
那 如 何 遭 守 该 设计 原则 呢 ? 








父 类 的 方法 都 要 在 子 类 中 实现 或 者 重 写 ， 并 且 派 生 类 只 实现 其 抽象 
类 中 声明 的 方法 ， 而 不 应 当 给 出 多 余 的 方法 定义 或 实现 。 


在 客户 端 程序 中 只 应 该 使 用 父 类 对 象 而 不 应 当 直 接 使 用 子 类 对 象 ， 
这 样 可 以 实现 运行 期 绑 定 《动态 多 态 ) 。 








如 果 A、B 两 个 类 违反 了 LSP 的 设计 ， 通 常 的 做 法 是 创建 一 个 新 的 抽 
象 类 C， 作 为 两 个 具体 类 的 超 类 ， 将 A 和 B 的 共同 行为 移动 到 C 中 ， 从 而 
解决 A 和 B 行 为 不 完全 一 致 的 问题 。 








在 前 面 的 多 态 ， 继 承 这 几 节 的 内 容 里 ， 已 经 涉及 LSP， 包 括 使 用 多 
态 实现 隐藏 基 类 和 浅 生 类 对 象 的 区 别 ， 以 及 使 用 组 合 的 方式 解决 继承 中 
的 基 类 与 派生 类 《 即 子 类 ) 中 的 不 符合 语意 的 情况 。PHP 对 LSP 的 文 持 
并 不 好 ， 人 缺乏 癌 上 转型 等 概念 ， 只 能 通过 一 些 曲 折 的 方法 实现 。 对 于 这 
个 原则 ， 这 里 就 不 再 细 讲 了 。 











在 接口 那 节 提 到 了 一 个 缓存 的 实现 接口 ， 试 试用 抽象 类 做 基 类 ， 遵 
循 LSP 实 现 其 设计 。 


这 里 给 出 其 抽象 类 代码 ， 如 代码 清单 2-14 所 示 。 
代码 清单 2-14 ”缓存 实现 抽象 类 





? php 
abstract class Cache { 
* 设 置 一 个 缓存 变量 
*@param String $key 缓存 Key 
*@param mixed$value 缓存 内 容 
*@param int $expire 绥 存 时 间 ( 秒 ) 
*@return boolean 是 否 缓存 成 功 
x 


public abstract function set ($key, $value, $expire=60); 
* 获 取 一 个 已 经 缓存 的 变量 

*@param String$ key 缓 存 Key 

*@retur i 缓存 内 容 

Sf 

public abstract function get ($key) ; 


* 删 除 一 个 已 经 缓存 的 变量 
*@return boolean 是 否 删除 成 功 
SE 


public abstract function del ($key) ; 
/x* 


“删除 全 部 缓存 变量 

*@return boolean 是 否 删除 成 功 

public abstract function delAll (); 
“检测 是 否 存在 对 应 的 缓存 


public abstract function has ($key) ; 





如 果 现 在 要 求实 现 文件 、memcache、accelerator 等 各 种 机 制 下 的 组 
存 ， 只 需要 继承 这 个 抽象 类 并 实现 其 抽象 方法 即 可 。 


现在 ， 再 来 思考 本 书 开 头 提 到 的 日 马 非 马 的 问题 ， 试 着用 里 氏 答 换 
原则 阐释 。 





注意 LSP 中 代 换 的 不 仅仅 是 功能 ， 还 包括 语意 。 试 思考 ; 白马 可 
以 代 换 马 ， 而 牛 同样 作为 劳力 ， 可 代 换 马 否 ? 高 跟 鞋 也 是 鞋子 ， 男 人 穿 
高 跟 鞋 又 是 否 能 接受 ? 





2.1.5 依赖 倒置 原则 


什么 是 依赖 倒置 呢 ? 简 单 地 讲 束 是 将 依赖 关系 倒 置 为 依赖 接口 ， 具 
体 概念 如 下 : 上 层 模块 不 应 该 依赖 于 下 层 模 块 ， 它 们 共同 依赖 于 一 个 抽 
象 ( 父 类 不 能 依赖 子 类 ， 它 们 都 要 依赖 抽象 类 )。 


抽象 不 能 依赖 于 具体 ， 具 体 应 该 要 依赖 于 抽象 。 
注意 ， 这 里 的 接口 不 是 狭义 的 接口 。 


为 什么 要 依赖 接口 ? 因为 接口 体现 对 问题 的 抽象 ， 同 时 由 于 抽象 一 
般 是 相对 稳定 的 或 者 是 相对 变化 不 频繁 的 ， 而 具体 是 易 变 的 。 因 此 ， 依 
赖 抽象 是 实现 代码 扩展 和 运行 期 内 绑 定 〈 多 态 ) 的 基础 : 只 要 实现 了 该 
抽象 类 的 子 类 ， 痢 可 以 被 类 的 使 用 者 使 用 。 这 里 ， 我 想 强 调 一 下 扩展 性 
这 个 概 仿 。 通 常 扩展 性 是 指 对 已 知行 为 的 扩展 ， 在 讲述 接口 那 一 三 ， 我 
也 提 到 ， 接 口 应 该 是 相对 稳定 的 。 这 就 告诉 我 们 ， 无 论 使 用 多 么 先进 的 
设计 模式 ， 也 无 法 做 到 不 需要 修改 代码 即 可 达到 以 不 变 应 万 变 的 地 步 。 
ee 
现 的 。 


这 个 例子 以 前 面 提 到 的 雇员 类 为 蓝本 ， 实 现代 码 如 代码 清单 2-15 所 
外。 














代码 清单 2-15 employee.php 





<? php 
interface employee { 

public function working (); 
} 


class teacher implements employee { 
public function working () { 
echo' teaching.…” ; 


s coder :implements employee { 
ic function working () { 
oding.…” ; 


[ei 
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$ worka=new workA; 
$worka->work (); 
$workb=new workB 
$workb->set (new teacher () ) ; 
$workb->work (); 





在 class 人 A 中 ， work 方 法 依赖 于 teacher 实 现 ; 在 classB 中 ， work 转 而 
依赖 于 抽象 ， 这 样 可 以 把 需要 的 对 象 通过 参数 传 入 。 上 述 代码 通过 接 
口 ， 实 现 了 一 定 程度 的 解 厢 ， 但 仍然 是 有 限 的 。 不 仅 是 使 用 接口 ， 使 用 
工厂 等 也 能 实现 一 定 程度 的 解 契 和 依赖 倒置 。 


在 workB 中 ，teacher 实 例 通 过 setter 方 法 传 入 中 ， 从 而 实现 了 工厂 模 
式 。 由 于 这 样 的 实现 仍然 是 硬 编码 的 ， 为 了 实现 代码 的 进一步 扩展 ， 把 
这 个 依赖 关系 写 在 配置 文件 里 ， 指 明 classB 需 要 一 个 teacher 对 象 ， 专 门 
由 一 个 程序 检测 配置 是 人 否 正确 〈 如 所 依赖 的 类 文件 是 否 存在 ) 以 及 加 载 
配置 中 所 依赖 的 实现 ， 这 个 检测 程序 ， 就 称 为 IJOC 容 髓 。 


很 多 文章 里 看 到 IOC (Inversion of Control) 概念 ， 实 际 上 ，IOC 是 
依赖 倒置 原则 (Depend ence Inversion Principle, DIP) 的 同义词 。 而 在 提 
IOC 的 时 候 ， 你 可 能 还 会 看 到 有 人 提起 DI 等 概念 。DI， 即 依赖 注入 ， 一 
般 认 为 ， 依 赖 注入 DI) 和 依赖 查找 (DS) 是 IOC 的 两 种 实现 。 不 过 随 
着 某 些 概念 的 演化 ， 这 几 个 概念 之 间 的 关系 也 变 得 很 模糊 ， 也 有 人 认为 
IOC 束 是 DI。 有 人 认为 ， 依 赖 注 入 的 描述 比 起 IOC 来 更 贴切 ， 这 里 不 纠 
缠 于 这 几 个 概念 之 间 的 关系 。 


在 经 典 的 J2EE 设 计 里 ， 通 常 把 DAO 层 和 Service 层 细 分 为 接口 层 和 
实现 层 ， 然 后 在 配置 文件 里 进行 依赖 关系 的 配置 ， 这 是 最 常见 的 DIP 的 
应 用 。Spring 框 架 就 是 一 个 很 好 的 IOC 容 器 ， 把 控制 权 从 代码 剥离 到 IOC 
容器 ， 这 里 是 通过 XML 配 置 文件 实现 的 ，Spring 在 执行 时 期 根据 配置 文 
件 的 设 定 ， 建 并 对 象 之 间 的 依赖 关系 。 














"prototype" 

ass="cn ebook .action.NotebookListotherAction'"id="notebookListOtherAction'" > 

=property ref="userReplyService"name="userReplyService"/><=property ref="userService"name="userService"/> 
=property ref="permissionService"name="permissionService"/><=prop i me="fr ervic 
=</bean> 





但 是 这 样 设置 一 样 存 在 问题 ， 配 置 文件 会 变 得 越 来 越 大 ， 其 间 关 系 
会 越 来 越 复 洒 。 同 样 逃 脱 不 了 随 着 应 用 和 业务 的 改变 ， 不 断 修 改 代码 的 
恶魔 〈 这 里 认为 配置 文件 是 代码 的 一 部 分 。 并 且 在 实际 开发 中 ， 很 少 存 








0 
改 放 澡 


在 PHP 里 ， 也 有 类 似 模 仿 Spring 的 实现 ， 即 把 依赖 关系 写 在 了 配置 
文件 里 ， 通 过 配置 文件 来 产生 需要 的 对 象 。 我 觉得 这 样 的 代码 是 还 是 为 
了 实现 而 实现 。 在 Spring 里 ， 配 置 文件 里 配置 的 不 仅仅 是 一 个 类 运行 时 
的 依赖 关系 ， 还 可 以 实现 事务 管理 、AOP、 延 迟 加 载 等 。 而 PHP 要 实现 
上 面 的 种 种 特性 ， 其 消耗 是 巨大 的 。 从 语言 层面 讲 ，PHP 这 种 动态 脚本 
型 语 豆 在 实现 一 些 多 态 特 性 上 和 编译 型 的 语言 不 同 。 其 次 PHP 作 为 敏捷 
性 的 开发 语言 ， 更 强调 快速 开发 、 逻 辑 清晰 、 代 码 简 单 易 懂 ， 如 果 再 附 
加 了 各 种 设计 模式 的 框架 ， 从 技术 实现 和 运行 效率 上 来 看 ， 都 是 不 可 取 
的 。 依 各 个 置 的 核心 原则 是 解 看 。 如 果 鹏 交 这 个 最 原 针 的 原则 ， 于 证 

到 


事实 上 ， 很 多 的 设计 模式 里 已 经 隐 含 了 依赖 倒置 原则 ， 我 们 也 在 有 
意 或 无 意 地 做 着 一 些 依赖 反 转 的 工作 。 内 是 作为 PHP 目前 还 没有 一 个 
比较 完善 的 IOC 容 器 ， 或 许 是 PHP 根 本 不 需 

如 何 满足 DIP: 


每 个 较 高 层次 类 都 为 它 所 需要 的 服务 提出 一 个 接口 声明 ， 较 低层 次 
类 实现 这 个 接口 。 


每 个 高 层 类 都 通过 该 抽象 接口 使 用 服务 。 























2.2 ”一 个 面 问 对 象 留言 本 的 实例 


在 这 一 节 ， 用 面向 对 象 的 思想 完成 一 个 简单 的 留言 本 模型 ， 这 个 模 
型 不 涉及 实际 的 数据 库 操作 以 及 界面 显示 ， 只 是 一 个 demo， 用 来 演示 
面 问 对 象 的 一 些 思维 。 


在 面 问 过 半 程 的 由 维 里 ， 要 设计 一 个 留言 本 ， 一 切 都 将 以 留言 本 为 核 
心 ， 抓 到 什么 是 什么 ， 按 流程 走 下 来 ， 即 按 用 户 填写 信息 -留言 -展示 
的 流程 进行 。 


现在 用 面向 对 象 的 思维 思考 这 个 问题 ， 在 面向 对 象 的 世界 ， 会 想 尽 
办 法 把 肉眼 能 看 见 的 以 及 看 不 见 的 ， 但 是 实际 存在 的 物 或 者 流程 抽象 出 
有 来。 既然 是 留言 本 ， 那么 下 存在 留言 容 这 个 实体 ， 这 个 留言 实体 
(domain〉 应 该 包括 留言 者 的 姓名 、E-mail、 留 言 内 容 等 要 素 ， 如 代码 
清单 2-16 所 示 。 








代码 清单 2-16 ”留言 实体 类 message.php 





class message { 

public $name; // 留 言 者 姓名 

public $email; // 留 言 者 联系 方式 
public$content; // 留 言 内 容 

public function set ($name, $value) { 
$ this-> $name=$value; 

} 


public function get ($name) { 
if (! isset ($this->$name) ) { 
$this-> $name=NULL; 

} 


} 
小 





上 面 的 类 也 就 是 所 说 的 domain， 是 一 个 真实 存在 的 、 经 过 抽象 的 实 
体 模 型 。 然 后 ， 需 要 一 个 留言 本 模型 ， 这 个 留言 本 模型 包括 留言 本 的 基 
本 属性 和 基本 操作 ， 如 代码 清单 2-17 所 示 。 


代码 清单 2-17 留言 本 模型 gpbookModel.php 








/x 
* 留 言 本 模型 ， 负 责 管理 留言 本 
» bookPath: 留言 本 属性 


a gbookModel { 

private $ bookPath; /留言 本 文件 

private $data; // 

public function setBookPath ($bookPath) { 
$ this->bookPath=$ bookPath:; 

} 


public function getBookPath () { 
return$ this->bookPath 
} 


public function open () { 
public function close () { 
} 


public function read () { 
return file get_ contents ($this->bookPath); 


} 

// 写 入 留言 

public function write ($data) { 

$this->data=self: safe ($data) ->name."&".self: safe ($data) ->email."\r\nsaid: \r\n".self: safe 
($data) ->content; 

return 

file put contents ($this->bookPath, $ this->data, FILE APPEND); 

由 


// 模 拟 数据 的 安全 处 理 ， 先 拆 包 再 打包 

public static function safe ($data) { 

$reflect=new Reflectionobject ($data) ; 

$props =$reflect->getProperties (); $messagebox=new stdClass () ; 
foreach ($props as$prop) 

$ivar=$prop->getName (); 

$messagebox-> $ivar=trim ($prop->getValue ($data) ); 

} 


return $messagebox:; 
J 


public function delete () { 
file put_ contents ($this->bookPath, ' it' s empty now’ ); } 
} 





实际 留言 的 过 程 可 能 会 更 复 洒 ， 可 能 还 包括 一 系列 准备 操作 以 及 
Log 人 处理 ， 所 以 应 定义 一 个 类 负 贡 数据 的 逻辑 处 理 ， 如 代码 清单 2-18 所 
NE 


代码 清单 2-18 留言 本 业务 逻辑 处 理 leaveModel.php 





class leaveModel { 

public function write (gbookModel $gb, S$data) { 
$book=$ gb->getBookPath () ; 

$gb->write ($data); 

// 记 录 日 志 

小 


} 





最 后 ， 通 过 一 个 控制 器 ， 负 责 对 各 种 操作 的 封闭， 这 个 控制 右 是 直 
接 面 向 用 户 的 ， 所 以 包括 留言 本 查看 、 删 除 、 留 言 等 功能 。 可 以 形象 理 
解 为 这 个 控制 右 就 是 留言 本 所 提供 的 直接 面 问 使 用 者 的 功能 ， 封 装 了 操 
作 细 市 ， 只 需要 调用 控制 器 的 相应 方法 即 可 ， 如 代码 清单 2-19 所 示 。 


代码 清单 2-19 “前端 控制 部 分 代码 











class authorControl { 

public function message (leaveModel $1, gbookModel $g, message $data) { 
// 在 留言 本 上 留言 

$1->write ($9g, $data); 

} 

public function view (gbookModel $g) { 
// 查 看 留言 本 内 容 

return$g->read () ; 

上 

public function delete (gbookModel $g) { 
$g->delete () ; 

echo self: view ($g) ; 

: 

} 


二 一 


测试 代码 如 下 所 示 : 





message=new message:; 

message->name=’ phper’ ; 

message->email=" phper@php. net’; 

message->content=’ a crazy phper love php so much.’; 
gb=new authorCcontrol () ; // 新 建 一 个 留言 相关 的 控制 器 
pen=new leaveModel (); // 拿 出 笔 

book=new gbookModel () ，// 翻 出 笔记 本 
book->setBookPath ("g: \ \bak\ \temp\ \tempcode\ \a.txt"); 
gb->message ($pen， ok $message) ; 

echo$ gb->view ($boo 

gb->delete Lope 











这 样 看 起 来 是 不 是 比 面向 过 程 要 复杂 多 了 ? 确实 是 复杂 了 ， 代 码 量 
增多 了 ， 也 难以 理解 了 。 似 乎 也 体现 不 出 优点 来 。 但 是 你 思考 过 以 下 问 


题 吗 ? 


如 休 让 很 多 人 来 负 贡 完善 这 个 留言 本 ， 一 部 分 负责 实体 关系 的 建 
立 ， 一 部 人 负责 数据 操作 层 的 代码 ， 这 样 是 不 是 更 容易 分 工 了 呢 ? 


如 琳 我 要 把 这 个 留言 本 进一步 开 肥 ， 实 现 记 录 在 数据 库 中 ， 或 者 添 
加 分 页 功能 ， 又 该 如 何 呢 ? 


要 实现 上 面 第 二 个 问题 提出 的 功能 ， 只 需 在 gbookModel 类 中 添加 分 
页 方法 ， 代 码 如 下 所 示 : 











public function readByPage () { 

$handle=file ($this->bookPath) ; $count=count ($handle) ; 
$page=isset ($_ GET[’ page’ ]) ? intval ($_ GET[’' page’ ]):1; 

if ($page<1| | $page> $count) $page=1; 

$ pnum=9; 

$beyin= ($page-1) *$pnu 

$end= ($begin+$ pnum) Sens SU $ begin+ $ pnum; 

for ($i=$begin; $i<S$end; $it++) { 

echo' <strong>’' ， $i+1, ‘ en ， $handle[ $i], ’ <br/>’; 


for ($i=1; $i<=ceil ($count/$pnum) ; ER { 
echo"<a href=? page=$ {i} >$ {i} </a 
}} 





然后 到 前 端 控制 器 里 添加 对 应 的 action， 代 码 如 下 所 示 : 





public function viewByPage (gbookModel $9g) { 
return$g->readByPage (); 
} 





运行 结果 如 图 2-5 所 示 。 


只 需要 这 么 简单 的 两 步 ， 就 可 实现 所 需要 的 分 页 功能 ， 而 且 已 有 的 
方法 都 不 用 修改 ， 只 需 在 相关 类 中 新 增 方法 即 可 。 当 然 ， 这 个 分 页 在 实 





际 点 击 时 是 有 问题 的 ， 因 为 我 没有 把 Action 分 开 ， 而 是 通通 放 在 一 个 页 
面 里 。 对 照 着 上 面 的 思路 ， 还 可 以 把 留言 本 扩展 为 MySQL 数 据 库 的 。 


在 这 个 程序 里 只 体现 了 非常 简单 的 设计 模式 ， 这 个 程序 还 有 许多 要 
改进 的 地 方 ， 每 个 程序 员 心 中 都 有 一 个 目 己 的 OO。 项 目 越 大 越 能 体现 
模块 划分 、 面 同 对 象 的 好 处 。 











Ea DY) hapyV/127.Uwgb.php 

lphper |phwer@php, net |a crazy phper love php so mch 
2phper |phper@php, ncet |a crazy phper love php so much. 
3phper |phper@php. net |a crazy phper love php so much. 
4phper |phwer@php. net |a crazy phper love php so mch. 
5phper |phperephp.net|a crazy phper love php so much., 
6phper |phperephp. net |a crazy phper love php so much. 
Tphper |phoer@php. net |a crazy phper love php so much. 
Bphper |phoer@php, net |a crazy phper love php so much. 
9phper |phperephp,net|a crazy phper love php so much 





”图 2-5 程序 运行 结果 


思考 ” 试 着 找 找 这 个 小 程序 里 体现 了 哪些 设计 原则 ， 并 且 试 着 加 上 
一 些 寞 常 处 理 等 。 


2.3 面 问 对 象 的 思 


PHP 的 特色 是 简单 、 快 速 、 适 用 。 在 PHP 的 世界 里 ， 一 切 以 解决 问 
题 为 主 ， 所 以 很 多 设计 方面 的 东西 往往 被 忽视 或 排斥 。 虽 然 PHP 的 面向 
对 象 提 出 很 多 年 了 ， 但 一 直 被 排斥 ， 很 多 人 提倡 原生 态 开发 方式 ， 甚 至 
有 人 提倡 彻底 面向 过 程 。 伴 随 着 对 OO 的 质疑 ，PHP 框 架 一 方面 如 雨 后 
春 算 般 遍 地 开花 ， 男 一 方面 一 直 受 到 抵制 和 质疑 。 


有 一 点 是 肯定 的 ，PHP 不 是 一 门 很 好 的 面 同 对 象 的 语言 ， 因 为 其 无 
法 做 到 完全 面 问 对 象 ， 也 无 法 优雅 实现 面 同 对 象 。 所 以 现在 比较 流行 的 
还 是 以 类 为 主 的 开放 方式 ， 即 抛弃 或 精简 经 典 的 MVC 理 论 ， 很 少 用 和 
几 平 不 用 设计 模式 ， 以 类 加 代码 模块 的 方式 进行 代码 组 织 。 这 种 开发 方 
式 在 PHP 的 开源 项 目 里 是 最 流行 的 ， 也 是 最 适合 二 次 开发 的 ， 而 比较 纯 
的 面 回 对 象 的 产品 有 Zend Framework。 这 类 产品 入 门 的 门槛 比较 高 ， 代 
人 开发 成 本 比较 高 ， 这 类 产品 一 般 比 较 少 见 ， 市 场 占 有 率 

交 低 。 


所 有 产品 最 终 都 是 为 市 场 服 务 的 ，PHP 面 向 的 是 Web 开发 市 场 ， 所 
人 
没有 作用 。 


一 些 基 本 理论 ， 在 任何 一 门 语言 里 都 有 共性 。 语 法 秃 数 库 只 是 学 
好 一 门 语言 的 必要 条 件 ， 而 不 是 充 要 条 件 。 语 法 和 函 式 只 是 表层 的 东 
西 。 只 要 掌握 面向 对 象 的 思想 ， 即 使 没有 一 点 Java 和 .NET 基 础 ， 也 能 看 
懂 用 它们 写成 的 代码 。 


PHP 只 是 一 个 脚本 语言 、 一 门 工 具 而 已 。 在 Web 开 发 中 ，PHP 语 言 
自身 所 占 的 分 量 越 来 越 低 ， 但 却 涉及 程序 设计 的 方方面面 ， 而 面向 对 象 
只 是 其 中 之 一 ， 也 是 最 主要 的 一 个 方面 。PHP 是 一 种 经 典 思 想 ， 能 实现 
低 耦 合 、 易 扩展 的 代码 ， 其 可 用 最 经 济 的 方式 干 一 件 事 。 


理论 是 重要 的 ， 但 是 理论 也 不 是 一 成 不 变 的 。 比 如 我 们 提 到 的 一 些 
设计 模式 ， 也 没 必 要 完全 遵守 ， 可 以 做 一 些 精简 和 变形 。 


基于 以 上 思考 ， 我 们 认为 在 PHP 的 开发 中 应 该 灵活 使 用 面向 对 象 的 
特性 和 设计 原则 。 


























对 于 流程 明确 、 需 求 清晰 、 需 求 变 更 风险 小 的 业务 逻辑 ， 过 程 化 开 
发 〈 传 统 软件 开发 模式 ) 最 适合 ， 这 就 像 解 一 道 数学 题 ， 总 需要 一 步 步 
去 解 ， 上 一 步 的 结果 作为 下 一 步 的 条 件 。 这 个 时 候 ， 面 癌 过 程 的 开发 更 
符合 人 的 思维 。 


但 是 对 于 流程 复杂 、 需 求 不 完善 、 存 在 很 大 需求 变更 风险 的 业务 好 
辑 ， 此 时 用 过 程 化 开发 将 使 程序 变 得 非常 的 繁琐 脆 肿 ， 实 现 难度 很 大 ， 
并 且 后 期 的 维护 代价 高 得 惊人 。 此 时 ， 抽 象 思维 将 是 最 适合 的 ， 用 面 问 
对 象 的 思维 去 抽象 业务 模型 并 随 需 求 不 断 精 化 ， 最 终 交 付 使 用 ， 其 扩展 
度 和 可 维护 性 都 要 比 过 程 化 方法 更 好 。 


由 于 面 癌 对 象 是 更 高 一 层 的 抽象 ， 它 有 一 些 优 点 较 之 面 问 过 程 是 比 
较 突出 的 ; 


其 一 ， 新 成 员 的 加 入 和 融合 不 再 困难 ， 高 度 抽 象 有 利于 局 上 度 总 结 。 


其 二 ， 代 码 即 文档 ， 团 队 中 的 任何 人 部 可 以 轻松 地 获得 产品 各 个 模 
块 的 基本 信息 ， 而 不 再 需要 通读 大 部 分 代码 。 


说 到 这 里 ， 可 能 就 会 有 人 有 疑问 了 : 本 书 一 直 在 推 积 面向 对 象 的 开 
发 模式 ， 说 面 癌 对 象 的 好 ， 说 OO 适合 复杂 的 项 目 ， 那 Linux 这 种 复杂 的 
项 目 ， 使 用 面向 过 程 的 C 语 言 编写 的 ， 这 又 如 何 解 释 ? 


这 个 问题 问 得 好 ， 现 解释 如 下 : 


其 一 ，Linux 虽 然 是 用 面向 过 程 的 C 语 言 编写 的 ， 但 是 Linux 的 操作 
系统 是 使 用 内 核 + 模块 的 方式 构建 的 ， 这 种 模块 化 的 思想 是 所 有 编程 范 
式 中 的 普 适 原则 。 


其 二 ， 面 向 对 象 和 各 种 设计 模式 就 是 已 经 提供 好 的 模式 ， 使 用 已 有 
的 模式 本 比 像 Linux 那 样 目 己 摸索 出 一 个 模式 更 方便 快捷 ， 开 发 成 本 更 
低 ， 代 码 更 易 阅 读 。 


其 实 ， 面 问 过 程 也 好 ， 面 癌 对 象 也 好 ， 目 的 只 有 两 个 : 一 个 是 功能 
实现 ， 一 个 是 代码 维护 和 扩展 。 只 要 能 做 好 这 两 点 ， 那 就 是 成 功 的 。 


PHP 不 是 一 门 很 好 的 OOPL， 但 却 是 一 门 很 好 的 Web 设 计 语 言 。 我 
们 有 理由 相信 ， 在 Web 开 发 领域 ，PHP 还 将 继续 发 挥 其 作用 ， 以 其 简 









































单 、 快 速 吸引 更 多 的 开发 者 加 入 。 


2.4 ”本章 小 结 


本 章 主 要 讲解 面向 对 象 设计 的 五 大 原则 ， 和 穿插 一 些 设计 模式 的 例 
子 。 在 第 1 章 的 最 后 提 到 面向 对 象 的 设计 思想 存在 一 些 问题 ， 其 本 质 在 
于 面向 对 象 强 调 对 现实 的 建 模 ， 而 现实 和 开发 中 并 没有 一 一 对 应 ， 因 此 
五 大 原则 和 设计 模式 就 是 对 OO 的 补充 。 


最 后 一 贡 给 出 的 留言 本 demo， 只 是 一 个 很 小 的 模型 。 一 般 来 说 ， 
越 是 规模 较 大 的 项 目 ， 越 能 体现 设计 模式 的 前 瞻 性 和 必要 性 。 


可 能 很 多 读者 对 一 些 设 计 模 式 有 不 同 的 见解 和 困惑 ， 这 是 正 第 的 。 
一 段 代 码 往往 很 难 明确 地 归属 于 茶 一 种 设计 模式 ， 其 可 能 有 多 种 设计 模 
式 的 影子 。 设 计 模 式 只 是 一 种 成 熟 的 、 可 供 借鉴 的 思考 模式 ， 而 不 是 公 


ls 




















我 们 既 要 深入 了 解 面向 对 象 的 思想 ， 叉 不 能 执着 于 面向 对 象 。 


第 3 草 ”正则 表达 式 基础 与 应 用 


正则 表达 式 起 源 于 科学 家 对 人 类 神经 系统 工作 原理 的 早期 研究 。 美 
新 泽 西 州 的 Warren McCulloch 和 出 生 在 美国 底特律 的 Walter Pitts 这 两 
位 神经 生理 方面 的 科学 家 ， 研 究 出 一 种 用 数学 方式 来 描述 神经 网 络 的 新 
方法 ， 他 们 创新 地 将 神经 系统 中 的 神经 元 描述 成 小 而 简单 的 目 动 控制 
元 ， 从 而 做 出 一 项 伟大 的 工作 人 革新。 后来， 数学 科学 家 Stephen Kleene 
在 Warren McCulloch 和 Walter Pitts 早 期 工作 的 基础 之 上 发 表 一 篇 论文 ， 
题目 是 《神经 网 事件 的 表示 法 》， 书 中 利用 正则 集合 的 数学 符号 描述 此 
模型 ， 引 入 正则 表达 式 的 概念 。 


3.1 认识 正则 表达 式 
正则 表达 式 就 是 用 某 种 模式 去 匹配 一 类 字符 串 的 一 种 公式 。 通 俗 地 





讲 ， 就 是 用 一 个 “字符 串 ” 描 述 一 个 特征 ， 然 后 验证 男 一 个 “字符 串 * 是 否 
符合 这 个 特征 的 公式 。 
比如 “ab+” 描 述 的 特征 是 : 一 个 a 和 任意 个 b。 那 么 ab、abb、 


abbbbbbbbbb 都 符合 这 个 特征 ， 而 字符 串 ad 显 然 是 不 符合 的 。 


正则 表达 式 可 应 用 到 各 个 方面 。 在 常用 的 高 级 编辑 嚣 中， 几乎 都 支 
持 正 则 表达 式 ， 如 Word、EditPlus、UltraEdit、Vim 等 。 


正则 表达 式 在 编程 语言 中 更 是 得 到 大 规模 推广 。 现 在 的 语言 几乎 都 
是 原生 的 ， 都 可 从 语法 上 支持 正则 表达 式 ， 尤 其 在 Perl 的 推动 下 ， 
PHP、Java、.NET、JavaScript 等 语言 都 支持 丰富 的 正则 语法 ， 不 支持 的 
可 以 通过 一 些 包 实现 扩展 。 每 种 语言 中 对 正则 表达 式 的 支持 有 所 不 同 ， 
其 中 Per 和 .NET 对 正则 表达 式 的 文 持 最 为 强大 ， 而 JavaScript 对 正则 表达 
式 的 文 持 则 比较 “朴素 ”。 


注意 本 节 所 讲 的 一 些 特性 ， 并 不 是 在 所 有 语言 中 都 支持 。 
3.1.1 _ PHP 中 的 正则 函数 


正则 表达 式 看 起 来 总 是 那么 古怪 ， 以 至 于 许多 人 对 其 望 而 生 长 。 首 
先 要 澄清 一 些 概念 : 虽然 不 同 语言 间 正 则 语法 大 同 小 寞 ， 但 实际 上 正则 


























表达 式 的 实现 有 多 种 引 敬 (如 非 确 定性 有 穷 自 动机 NFA、 确 定性 有 穷 自 
动机 DFA) ， 其 表现 又 有 多 种 风格 〈 如 JavaScript 有 上 自己 的 朴素 正则 、 
Perl 有 一 套 高 级 而 强大 的 正则 、.NET 也 有 自己 的 一 套 正 则 风格 ) 。 另 
外 ， 还 有 人 可 能 容易 混淆 PHP 中 的 preg 和 ereg。 


简单 地 说 ，PHP 中 有 两 套 正则 函数 ， 两 者 功能 差不多 : 
1) 由 PCRE 库 提供 的 冰 数 ， 以 “preg ”为 前 级 命名 。 


PCRE (Perl Compatible Regular Expression， 兼 容 Perl 的 正则 表达 
式 ) 由 Philip Hazel 于 1997 年 开发 。 现 代 的 编程 语言 和 软件 中 一 般 都 使 用 
PCRE 库 。 


2) 由 POSIX 扩 展 提 供 的 函数 ， 以 “ereg ”为 前 级 命名 。 


POSIX (Portable Operating System Interface of UNIX, UNIX 可 移植 
操作 系统 接口 ) 由 一 系列 规范 构成 ， 定 义 了 UNIX 操 作 系 统 应 文 持 的 功 
能 ， 所 以 “POSIX 风 格 的 正则 表达 式 ” 也 就 是 “关于 正则 表达 式 的 POSIX 规 
范 >， 定 义 了 BRE (Basic Regular Expression， 基 本 型 正则 表达 式 ) 和 
ERE (Extended Regular Express， 扩 展 型 正则 表达 式 ) 两 大 流派 。 通 常 
UNIX 的 一 些 工具 和 较 老 的 软件 中 会 使 用 POSIX 风 格 的 正则 。 男 外 ， 一 
些 数 据 库 中 也 提供 了 POSIX 风 格 的 正则 表达 式 。 


自 PHP ”5.3 以 后 ， 束 不 再 推荐 使 用 POSIX 正 则 疯 数 库 ， 寿 程序 中 使 
用 了 则 会 报 Deprecated 级 别 的 错误 ， 这 种 情况 通常 在 一 些 较 老 的 代码 中 
比较 常见 。 其 实 使 用 或 不 使 用 POSIX 正 则 函数 库 二 者 本 质 上 没 多 大 差 
别 ， 主 要 是 一 些 表现 形式 、 语 法 和 扩展 功能 的 差别 。 




















3.1.2 ”正则 表达 式 的 组 成 


在 Windows 资 源 管理 器 中 查找 文件 以 及 批 处 理 文件 时 ， 可 使 用 通 配 
符 “? “和 “*” 表 示 匹 配 一 组 字符 ， 这 和 正则 表达 式 类 似 ，“? "表示 一 个 不 
确定 的 字符 ， 而 “*” 则 表示 任意 多 个 不 确定 字符 。 比 如 下 面 是 删除 本 地 
垃圾 文件 批 处 理 的 部 分 代码 ， 

















需要 注意 的 是 ， 这 里 的 *? “和 “” 称 为 “通配符 ”， 而 不 是 正则 表达 


在 PHP 里 ， 一 个 正则 表达 式 分 为 三 个 部 分 ， 分 隔 符 、 表 达 式 和 修 
竺 ， 





分 隔 符 : 可 以 是 除了 字母 、 数 字 、 反 和 斜 线 及 空白 字符 以 外 的 任何 字 
符 ( 比 如 /、! 、#、%、|、 一 等 ) 。 经 常 使 用 的 分 隅 符 是 正 斜 线 
(/) 、hash 符 号 〈#) 以 及 取 反 符号 《一 ) 。 考 虑 到 可 读 性 ， 为 了 避免 
和 有 反 和 斜 线 混淆 ， 一 般 不 使 用 正和 斜 线 做 分 阳 符 。 


表达 式 : 由 一 些 特殊 字符 和 非特 殊 的 字符 串 组 成 ， 比 如 “[a-z0-9__ - 
-]+@[a-z0-9__.]+” 可 以 匹配 一 个 简单 的 电子 邮件 字符 串 。 


修饰 符 : 用 于 开局 或 者 关闭 某 种 功能 /模式 。 


3.1.3 测试 工具 的 使 用 


在 学 习 过 程 中 ， 建 议 下载 RegexTester 工 具 验 证 和 测试 正则 表达 式 ， 
也 可 使 用 Firefox 的 扩展 Regular Expression Tester 进 行 测试 ， 其 界面 如 图 
3-1 所 示 。 


规则 表达 式 
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图 3-1 Firefox 的 扩展 Regular Expression Tester 


本 书 以 后 测试 痢 将 利用 此 工具 进行 ， 而 不 再 写 PHP 代 码 测试 。 





注意 ”这 个 工具 测试 的 代码 不 一 定 能 在 PHP 中 通过 ， 反 之 PHP 中 合 
法 的 正则 表达 式 在 此 工具 里 也 不 一 定 能 测试 通过 。 其 中 的 道理 前 面 已 经 
讲 过 了 ， 不 同 语言 实现 的 正则 表达 式 略 有 区 别 。 


下 面 ， 就 来 开始 最 简单 的 正则 表达 式 入 门 的 介绍 。 


3.2 ”正则 表达 式 中 的 元 字符 


假设 要 在 一 篇 文章 里 查找 che"， 可 以 使 用 正则 表达 式 he*。 这 几乎 
是 最 简单 的 正则 表达 式 ， 它 可 以 精确 匹配 这 样 的 字符 串 ， 由 两 个 字符 组 
成 ， 前 一 个 字符 是 中 "， 后 一 个 是 “e”。 通 常 ， 处 理 正则 表达 式 的 工具 会 
提供 一 个 忽略 大 小 写 的 选项 ， 如 果 选 中 这 个 选项 ， 它 可 以 匹 
配 che"、“HE”、“He”、“hE” 这 四 种 情况 中 的 任意 一 种 . 


但 是 很 多 单词 里 包 仿 “he” 这 两 个 连续 的 字符 ， 比 
如 “her”、“heet” 等 。 用 “he” 来 查找 ， 这 些 单 词 中 的 “he” 也 会 被 找 出 来 。 
如 果 要 精确 地 僵 找 “he” 这 个 单词 ， 应 该 使 用 以 下 形式 : 








\bhe\b 





“、\b" 是 正则 表达 式 规定 的 一 个 特殊 代码 ， 代 表单 词 的 开头 或 结 
尾 ， 也 就 是 单词 的 分 界 处 。 昌 然 通 音 英文 单词 是 由 空格 、 标 点 符号 或 者 
换行 来 分 隅 ， 但 是 “\b" 并 不 匹配 这 些 单词 分 隔 字 符 中 的 任何 一 个 ， 它 
只 匹配 一 个 位 置 。 


“\b” 匹 配 位 置 的 精确 说 法 前 一 个 字符 和 后 一 个 字符 不 全 是 (一 
个 是 ， 一 个 不 是 或 不 存在 )“\w”。 


假如 要 找 “he” 后 面 不 远 处 跟着 一 个 “is”"”， 应 该 表示 如 下 : 











\bhe\b.*\bis\b 





这 里 ， 点 写 《.) 是 元 字符 ， 匹 配 除 了 换行 符 以 外 的 任意 字 
符 。“*” 同 样 是 元 字符 ， 不 过 它 代 表 的 不 是 字符 ， 也 不 是 位 置 ， 而 是 数 
量 一 一 它 指 定 “*” 前 边 的 内 容 可 以 连续 重复 使 用 任意 次 以 使 整个 表达 式 
得 到 匹配 。 因 此 ,，“.” 和 “*”" 连 在 一 起 就 意味 着 任意 数量 的 、 不 包含 换行 
的 字符 。 现 在 , “和 Nbhe 和 \b.* 和 bis 和 b” 的 意思 很 明显 : 先是 一 个 单词 he， 
然后 是 任意 个 任意 字符 〈 但 不 能 是 换行 符 ) ， 最 后 是 is 这 个 单词 。 




















== 


3.21 首义 十 元 字符 


元 字符 (Meta Characters) 是 正则 表达 式 中 具有 特殊 意义 的 专用 字 
符 ， 用 来 规定 其 前 导 字 符 ( 即 位 于 元 字符 前 面 的 字符 〉 在 目标 对 象 中 的 
出 现 模式 。 通 过 前 面 的 例子 ， 我 们 已 经 知道 几 个 很 有 用 的 元 字符 。 正 则 
表达 式 里 有 很 多 元 字符 ， 第 用 元 字符 如 表 3-1 所 示 。 











表 3-1 常用 元 字符 
元 字符 描述 
匹配 除 换行 符 以 外 的 任意 字符 
匹配 字母 或 数字 或 下 划 线 或 汉字 


匹配 任意 空白 符 
\d 匹配 数字 
\b 匹配 单词 的 开始 或 结束 


匹配 字符 串 的 开始 
匹配 字符 串 的 结束 

表示 范围 

匹配 括号 中 的 任意 一 个 字 
量词 


村 


— 


下 面 看 一 些 例 子 。 
1) 匹配 以 字母 <a" 开 头 的 单词 : 





\ba\w*\b 





以 上 表达 式 先 是 某 个 单词 开始 处 “\b) ， 然 后 是 字母 “a”， 接 着 是 
任意 数量 的 字母 或 数字 〈\w*) ， 最 后 是 单词 结束 处 《\b) ， 匹 配 的 


单词 如 adandon、action、a 等 。 


2) 匹配 1 个 或 更 多 连续 的 数字 : 











\d+ 





以 上 表达 式 可 以 匹配 0、1、555 等 。 这 里 的 元 字符 + 和 * 类 似 ， 不 同 
的 是 ，* 匹 配 重 复 任 意 次 《可 能 是 0 次 ) ， 而 + 则 匹配 重复 1 次 或 更 多 次 。 


3) 匹配 刚好 6 个 字符 的 单词 : 











\b\w {6} \b 





以 上 表达 式 匹 配 action、123456、ste_ph 等 。 
注意 ”正则 表达 式 里 “单词 * 指 不 少 于 1 个 的 连续 字母 和 数字 。 


如 打 同 时 使 用 其 他 元 了 字符， 则 能 构造 出 功能 更 强大 的 正则 表达 式 。 
比如 下 面 这 个 例子 : 





OG\d\d-\d\d\d\d\d\d\d\d 





匹配 字符 串 : 以 0 开头 ， 然 后 是 2 个 数字 ，1 个 连 字符 ， 最 后 是 8 个 数 
字 ， 也 就 是 中 国 部 分 地 区 的 电话 号 码 ， 如 010 12345678。 

这 里 “NX 是 元 学 符 ， 匹配 1 位 数字 (Oe Ty Dons 六 Se 
符 ， 只 [匹配 它 本 身 一 一 连 字 符 (或 者 减 号 ， 或 者 中 横 线 ， 或 者 随 你 怎么 
称呼 它 ) 。 


为 了 避免 那么 多 烦人 的 重复 ， 也 可 以 这 样 写 这 个 表达 式 : 








oO\d {2} -\d {8} 





这 里 入 d 后 面 {2} 和 {8} 的 意思 是 ， 前 面 和 d 必 须 连 续 重 复 匹 配 2 
次 和 8 次 。 


思考 题 “使 用 “he”、“\bhe \b” 分 别 查找 句子 “he is a good student， 
the most proud of his moth er.With him, she hold the hope.” 有 多 少 种 匹配 结 
果 ? 


下 面 重点 介绍 几 个 常用 元 字符 。 


3.2.2 ”起 始 和 结束 元 字符 
元 字符 中 有 两 个 用 来 匹配 位 置 : 
“: 匹配 字符 串 的 开始 。 
: 匹配 字符 串 的 结束 。 
元 字符 ““”、 与 “\b* 有 点 类 似 。““^ ”匹配 字符 串 的 开头 ，“ 匹 配 


结尾 。 这 两 个 代码 在 验证 输入 内 容 时 非常 有 用 ， 比 如 茶 网 站 如 果 要 求 填 
写 QQ 号 必须 为 5 一 11 位 数字 时 ， 可 以 使 用 : 








”Ad 





这 里 《5，11} 表示 重复 次 数 不 能 少 于 5 次 ， 不 能 多 于 11 次 ， 否 则 都 
不 匹配 。 因 为 使 用 ”和 ”“， 所 以 输入 的 整个 字符 串 都 要 和 和 d {5， 
11} 匹配 。 也 就 是 说 ， 整 个 输入 必须 是 5 一 11 个 数字 ， 如 采 输 入 QQ 号 能 
匹配 这 个 正则 表达 式 ， 就 符合 要 求 。 如 果 输 入 含有 5 一 11 个 数字 ， 但 不 
而 只 是 一 串 字 符 的 一 部 分 ， 也 不 能 匹配 成 功 ， 如 图 3-2 

人 钞 。 





规则 表达 式 
~\d{5,11}8 


局 大 小 注音。 贺 Global 园 Multiline [Options - | 
司 代 茵 | 

查找 文本 

363575104 


qq 中 363575104 
my 99 isa 33575104. 





结果 





363575104¢g 
qq 是 363575104g 
my qq is 33575104.9 








图 3-2 正则 表达 式 匹配 结果 


从 图 中 就 能 清晰 地 看 出 *“ ”入 d {5，11} ”的 确切 含义 。 我 想 ， 你 也 
能 猜测 到 它 和 正则 表达 式 \d {5，11} 的 区 别 。 为 了 加 深 印 象 ， 分 别 使 








用 下 面 4 个 正则 表达 式 看 一 下 效果 : 





“Nd (5，11} $ /7 匹配 起 始 和 结束 位 置 都 是 数字 的 ， 且 连续 5 一 11 位 
\d {5，41)} $// 匹 配 结束 位 置 是 数字 的 ， 且 连续 5 一 11 位 

“Nd {(5，11} // 匹 配 起 始 位 置 是 数字 的 ， 且 过 续 8 一 11 位 

Nd (5，11} /7 匹配 连续 的 5 一 11 位 数字 











很 自然 ， 在 一 行 中 ， 前 三 个 正则 表达 式 结 果 只 二 个 风 本 千 
和 Fa 因为 一 行 只 
能 有 一 个 开始 位 置 和 一 个 结束 位 置 。 


注意 我 们 在 正则 表达 式 处 理工 具 处 勾 选 Multiline 选 项 ， 即 多 行 选 
项 ，“ 和 的 意义 就 变 成 匹配 行 的 开始 处 和 结束 处 ， 否则 将 把 整个 输入 视 
作 一 个 字符 串 ， 忽 视 换 行 符 。 可 以 试 着 把 多 行 选项 去 除 后 再 看 看 效果 。 
如 果 用 过 Vim 编 辑 器 ， 就 知道 命令 “d“ ”和 “d” 的 作用 了 。 





3 7 


点 号 〈.) 是 使 用 频率 最 高 的 元 字符 。 例 如 ， 在 做 采集 时 抓 取 页 
面 ， 要 匹配 某 DIV 里 的 内 容 ， 就 需要 用 到 点 号 上 匹配。 下面 代 码 是 抓 取 本 
地 HTMIL 页 面 的 一 部 分 : 











=<html xmlns="http: //www.w3.o0rg/1999/xhtml"> 

=<head profile="http: //gmpg.org/xfn/11"> 

=meta http-equiv="content-type"content="text/html:; charset=UTF-8"/> 
<tit1le> 我 的 博客 </tit1le>> 








要 匹配 这 个 网 页 的 标题 应 该 怎么 办 呢 ? 很 简单 ， 使 用 点 写 匹 配 全 部 
字符 ， 如 下 : 





<title>.*< /title> 





这 样 就 可 以 抓 取 你 想 要 的 任何 内 容 了 ， 包 括 DIV、SPAN 等 。 


思考 题 ”延伸 思路 ， 是 不 是 还 可 以 抓 取 页 面 的 字符 集 ? 要 判断 这 个 
页 面 有 多 少 张 图 片 是 不 是 也 很 容易 ? 只 要 找到 特征 字符 就 可 以 。 试 一 
下 ， 看 看 和 预想 的 结果 是 否 一 致 。 





324 量词 


前 面 实际 上 已 经 涉及 量词 的 概念 ， 比 如 \d+、\d {5，11} 等 都 应 
用 了 量词 。 正 则 表达 式 中 的 量词 如 表 3-2 所 示 。 


下 面 是 一 些 例子 : 
1) 匹配 Windows 后 面 跟 1 个 或 更 多 数字 : 














Windows \ d+ 





2) 表示 index 后 面 紧 跟 0 个 或 1 个 数字 ，: 





index \d? 











以 上 表达 式 匹 配 index、index1、index9 这 样 的 文件 名 ， 但 不 匹配 
index10、indexa 这 样 的 文件 名 。 


3) 匹配 一 行 第 一 个 单词 (或 整个 字符 串 第 一 个 单词 ， 具 体 匹 配 哪 
种 ， 得 看 选项 设置 ) : 





表 3-2 正则 表达 式 中 的 量词 
限定 符 代码 “语法 





中 , 113 











提示 “在 学 习 量 词 的 过 程 中 ， 要 注意 * 和 ? 这 两 个 量词 。 前 面 提 到 
过 通配符 的 概念 ， 通 配 符 里 也 有 这 两 个 符号， 要 注意 它们 之 间 的 区 别 。 


3.3 ”正则 表达 式 匹 配 规 则 


我 们 已 经 学 习 “*”、“-”、“? ”等 元 人 字符， 它们 都 有 各 自 的 特殊 合 
义 。 如 果 想 匹配 没有 预定 义 元 字符 的 字符 集合 ， 或 者 表达 式 和 已 知 定义 
0 
纲 则 。 


3.3.1 字符 组 
”查找 数字 、 字 母 、 空 白 很 简单 ， 因 为 已 经 有 了 对 应 这 些 字符 集合 的 
元 字符 ， 但 是 如 采 想 匹配 没有 预定 义 元 字符 的 字符 集合 〈 比 如 元 音字 母 
a、e、i、0、u) ， 方 法 很 简单 ， 只 需要 在 方 括号 里 列 出 它们 。 

例如 [aeiou] 匹 配 任何 一 个 英文 元 音字 母 ，[.? ! ] 匹 配 标点 符号 
(“2 “9 ”或 “1 ”) ，cfaoult 匹 配 “cat?”、“cot”、 “cut" 这 三 个 单词 ， 
而 “caout” 则 不 匹配 。 

注意 口 匹配 单个 字符 ， 尽 管 看 起 来 ] 里 有 好 多 字符 。 


也 可 以 指定 字符 范围 ， 例 如 [0-9] 的 含意 与 \ d 完 全 一 致 : 代表 一 位 
数字 ;， 同 理 [a-z0-9A-Z_“] 完 全 等 同 于 入 w《〈 如 果 只 考 碟 英文 ) 。 


字符 组 很 简单 ， 但 是 一 定 要 和 并 清楚 字符 组 中 什么 时 候 需 要 转 义 。 




















3.32 转 义 


如 果 想 查找 或 匹配 元 字符 本 身 ， 比 如 查找 *、? 等 就 出 现 问 题 : 没 
办 法 指定 ， 因 为 它们 会 被 解 释 成 别 的 意思 。 这 时 就 使 用 \ 来 取消 这 些 字 
符 的 特殊 意义 。 因 此 ， 应 该 使 用 \. 和 和 *。 当 然 ， 查 找 入 本 映 用 \\。 
这 叫做 转 义 。 


通俗 地 讲 ， 转 义 束 是 防止 特殊 字符 被 解析 ， 或 者 说 用 某 个 符号 表示 
另 一 个 特殊 符号 。 例 如 : unibetter 和 .com 匹配 unibetter.com， Ci «NN 
Windows 匹 配 C: \ Windows。 





在 JavaScript 或 者 PHP 中 都 接触 过 转 义 的 概念 。 例 如 ，JavaScript 中 要 
弹出 一 个 对 话 框 ， 对 话 框 中 需要 分 成 两 行 显 示 ， 用 HTML 的 二 br 二 标签 
0 应 该 用 \r\n 表 示 换 行 并 新 起 一 行 ， 

0 下 所 示 : 








"警告 , 
) 


(敬告 <br 操作 无 效 ") ; 


/ /和 
"警告 \r \ n 操 作 无 效 ") ; // 


漠 误 
正确 写法 





在 PHP 里 使 用 反 斜 入 (、) 表示 转 义 ，\Q 和 NE 也 可 以 在 模式 中 和 忽 
略 正 则 表达 陈 元 字符 ， 比 如 : 





\d+\Q.$.\ES 





以 上 表达 式 先 匹配 一 个 或 多 个 数字 ， 紧 接 独 一 个 点 号 ， 然 后 一 个 ， 
再 然后 一 个 点 号 ， 最 后 是 字符 串 末 尾 。 也 束 是 说 ，\Q 和 \E 之 间 的 元 
字符 都 会 作为 普通 字符 用 来 匹配 。 

正则 表达 式 是 不 是 遇 到 这 些 特 殊 字 符 就 该 转 义 呢 ? 答案 显然 是 售 定 
的 。 转 义 只 有 在 一 定 条 件 下 ， 比 如 可 能 引起 攻 义 或 者 被 误解 析 的 情况 下 
才 需 要 。 有 些 情况 并 不 需要 转 义 这 些 “ 特 殊 ” 字 符 ， 并 且 在 时 转 义 也 是 无 
效 的 。 这 需要 不 断 尝 试 并 积累 经 验 。 看 一 个 例子 : 











在 字符 组 中 匹配 “a*”、“b”、“y” 和 “} ”中 任意 一 个 ， 由 于 “} ”是 元 字 
从 ， 具 有 特殊 意义 ， 所 以 这 里 进行 转 义 ， 使 用 “、{” 表 示 “{”。 


但 是 实际 上 ， 这 个 转 义 是 多 余 的 。 虽 然 “} ”是 元 字符 ， 具 有 特殊 音 
义 ， 但 是 在 字符 组 中 ,“} ?" 却 无 法 发 挥 意义 ， 不 会 引起 歧义 ， 所 以 不 需 
要 转 义 。 在 这 里 “、{” 和 “{” 是 等 价 的 。 

既然 转 义 符 “\ ?是 多 余 的 ， 那 么 会 不 会 被 当 作 普 通 字符 呢 ? 字符 串 
str 里 有 “入 ”， 但 是 可 以 从 代码 运行 结果 中 看 出 , “和 ?字符 并 没有 被 匹 
配 ， 也 就 是 说 正则 表达 式 “ 基 abc\ }]#” 中 ， 昌 然 “\” 转 义 符 是 多 余 的 ， 
但 是 也 并 没有 被 当 作 普通 字符 进行 匹配 。 


如 果 确 实 要 把 “” 当 作 普 通 字符 匹配 ， 正 则 表达 式 需要 写成 : 














#[} ab\ \ \y]# 





前 面 提 到 ， 不 是 所 有 出 现 特 殊 字 符 的 地 方 都 要 转 义 。 例 如 ， 以 下 正 
则 表达 式 可 以 匹配 “cat”、“c? t?、“c) 等 字符 : 





c[aou? *) ]t 





其 中 <? “和 ex" 等 特殊 字符 都 不 需要 转 义 。 原 因 很 简单 ， 字 符 组 里 
匹配 的 是 单个 字符 ， 这 些 特殊 字符 不 会 引起 歧义 。 


字符 组 里 可 以 使 用 转 义 吗 ? 可 以 ， 例 如 *c[ 和 dd 可 以 匹 
配 “cl1d”、“c2d” 等 。 下 面 是 复杂 的 表达 式 : 





\ (?@\d {2} [) -]? \d {8} 





“(»” 和 “) ”也 是 元 字符 (后 面 在 分 组 章节 会 提 到 ) ， 所 以 在 这 里 需 
要 使 用 转 义 。 这 个 表达 式 可 以 匹配 几 种 格式 的 电话 号 码 ， 例 如 (010) 
88886666、022 22334455 或 02912345678 等 。 首 先是 转 义 符 “\、(”， 表 示 
出 现 0 或 1 次 (? ) ， 然 后 是 一 个 0， 后 面 跟着 两 个 数字 (入 d {2} ) ， 
然后 是 “) ”“-” 或 空格 中 的 一 个 ， 出 现 1 次 或 不 出 现 (? ) ， 最 后 是 八 
个 数字 (\d {8} ) 。 


3.3.3 反 义 


有 些 时 候 ， 查 找 的 字符 不 属于 某 个 字符 类 ， 或 者 表达 式 和 已 知 定义 
相反 【比如 除了 数字 以 外 其 他 任意 字符 ) ， 这 时 需要 用 到 反 义 。 和 常用 反 
义 如 表 3-3 所 示 。 





表 3-3 常用 反 义 
六 一 一 
\ 古 匹配 任意 不 是 字母 、 数 字 、 下 画 线 ， 汉 字 的 字符 
匹配 任意 不 是 空白 符 的 字符 
> 匹配 任意 非 数 宇 的 字符 


匹配 不 是 单词 开头 或 结束 的 位 置 
: 匹配 除了 x 以 外 的 任意 字符 
匹配 除 了 63D1 这 几 个 [ J 以 外 的 任意 : 符 


反 义 有 一 个 比较 明显 的 特征 ， 惑 是 和 一 些 已 知 元 字符 相反 ， 并 且 为 
比如 “Nd” 表 示 数 字 ， 而 “\ D” 束 表示 非 数 字 。 看 一 些 实际 的 
列子 。 





NS+ 





2) 用 尖 括 号 括 起 来 、 以 a 开头 的 字符 串 : 





区 





比如 ， 要 匹配 字符 串 “<a href="http: /baidu.com" 之 百度 二 /a>>” 
这 个 正则 表达 式 匹 配 的 结果 束 是 “二 a-href="http: /baidu.com'" 之 ”。 


提示 ““ ”在 这 里 是 “ 非 ” 的 意思 ， 不 要 和 表示 开头 的 %“ ”混淆 。 那 怎 
么 区 分 呢 ? 很 简单 ， 表 示 开 始 位 置 的 “<“” 只 能 用 在 正则 表达 式 最 前 端 ， 
而 表示 取 反 的 “<“” 只 用 在 字符 组 中 ， 即 只 在 中 括号 里 出 现 。 记 住 这 一 
扩 ， 束 不 会 搞 混 了 。 


日 常 工 作 中 反 义 用 得 不 多 ， 因 为 扩大 了 范围 。 例 如 程序 里 的 变量 ， 
第 一 个 字符 不 允许 是 数字 ， 一 般 使 用 ““ [a-zA-Z_ 了 表示 ， 而 不 会 使 


用 “\D”， 因 为 “\D? 扩 大 了 范围 ， 包 括 所 有 非 数字 的 字符 ， 显 然 ， 变 
量 命名 不 仅仅 要 求 第 一 个 字符 不 是 数字 ， 也 不 能 是 其 他 除了 26 个 大 小 写 
字母 和 下 国 线 以 外 的 字符 。 因 此 ， 不 要 随意 使 用 反 义 ， 以 免 无 形 中 扩大 
范围 ， 而 使 自己 没有 考虑 到 。 








3.3.4 ”分 支 


分 支 束 是 存在 多 种 可 能 的 匹配 情况 。 例 如 ，[ 匹 配 “cat” 或 者 “hat*”， 可 
以 写成 [chjat， 要 [匹配 “cat*”、“hat”、“fat*”、“toat*”， 很 显然 不 能 用 字符 组 
匹配 的 方式 。 这 里 表明 前 面 的 匹配 字符 可 以 是 c、h、f 或 者 to， 而 口上 只 能 
匹配 单个 字符 ， 此 时 可 用 分 文 形式 ， 即 : 











(clhlflto) at 





其 中 括号 里 的 表达 陈 将 视 作 一 个 整体 〈 后 面 会 讲 到 分 组 的 概 
念 ) ,“ | ?表示 分 文 ， 即 可 能 存在 的 多 种 情况 ， 可 以 匹配 多 个 字符 。 分 
文 的 功能 更 强大 ， 字 符 组 方式 只 能 对 单个 字符 “分 文 ?， 而 分 文 可 以 是 多 
个 字符 以 及 更 复杂 的 表达 式 。 但 对 于 单字 符 的 情况 ， 字 符 组 的 效率 更 
高 。 也 就 是 说， 能 使 用 字符 组 就 不 用 分 文 。 


看 到 这 里 ， 你 可 能 会 有 疑问 : 表达 式 “[chjat”" 括 号 里 面 是 可 能 的 匹 
配 ， 分 支 也 是 表示 可 能 的 匹配 ， 那 么 “[chjat* 是 否 可 以 写成 “(c | h) 
at” 呢 ? 答案 显然 是 可 以 的 ，“[chlat= (c | h) at”。 


注意 ”括号 匹配 会 捕获 文本 ， 如 果 不 需 要 捕获 文本 ， 上 面 的 例子 可 
以 使 用 〈? : ) ”， 后 面 还 会 讲 到 。 


正则 表达 式 分 支 条 件 指 有 几 种 规则 ， 无 论 满足 其 中 哪 一 种 规则 都 能 
匹配 ， 具 体 方法 是 用 * | ”把 不 同 规则 分 阳 开 ， 例 如 : 




















OG\d {2} -\d{8} |0\d{3} -\d{7} 





这 个 表达 式 能 匹配 两 种 以 连 字 号 分 隔 的 电话 号 码 : 一 种 是 3 位 区 
号 ，8 位 本 地 号 〈 如 010-12345678) ， 一 种 是 4 位 区 号 ，7 位 本 地 号 〈 如 
0376-2233445) 。 匹 配 3 位 区 号 的 电话 号 码 表达 式 如 下 : 











\ (oO\d {2} \) [-]? \d {8} 10N\d{2}[-]? \d {8} 





其 中 区 号 可 以 用 小 括号 插 起 来 ， 也 可 以 不 用 ， 区 号 与 本 地 号 间 可 以 
用 连 字 号 或 空格 间隔 ， 也 可 以 没有 间 隅 。 可 以 试 试用 分 文 条 件 把 这 个 表 








达 式 扩展 成 同时 支持 4 位 区 号 。 


例如 ， 灶 国 邮 编 规则 是 5 位 数字 ， 或 者 用 连 字 号 间隔 的 9 位 数字 。 匹 
配 表达 式 如 下 : 





\d{5} -\d {4} | \d {5} 





另外 ， 使 用 分 支 条 件 时 ， 要 注意 各 个 条 件 的 顺序 。 如 果 改 成 以 下 形 
式 ， 就 只 匹配 5 位 邮编 以 及 9 位 邮编 的 前 5 位 : 


\d{5} | \d {5} - \d {4} 








注意 ”匹配 分 文 条 件 时 ， 将 从 左 到 右 训 试 每 个 条 件 ， 如 采 满 足 东 个 
分 文 ， 束 不 会 再 考 夸 其 他 条 件 。 


3.3.5 “分 组 


重复 单个 字符 只 需要 直接 在 字符 后 面 加 上 限定 符 ， 但 如 果 想 重复 多 
个 字符 又 该 怎么 办 呢 ? 可 以 用 小 括号 指定 子 表达 式 ， 然 后 规定 这 个 子 表 
达 式 的 重复 次 数 ， 也 可 以 对 子 表达 式 进行 其 他 一 些 操作 。 这 就 是 本 节 介 
绍 的 分 组 ， 常 用 分 组 语法 如 表 3-4 所 示 。 


表 3-4 常用 分 组 语法 








类 别 撒 述 
光 配 exp ， 并 捕获 文本 到 自动 命名 的 组 里 
捕获 沁 配 exp ， 关 捕获 文本 到 名 称 为 name 的 组 里 ， 也 可 以 写成 【?hamegxp ) 


正 配 exp ， 不 捕获 匹配 的 文本 ， 也 不 给 此 分 组 分 配 组 号 
?=exp) 匹配 exp 前 面 的 位 置 
| 
零 宽 断言 - -一 一 3 a 
本 后 而 限 的 不 是 cp 的 人 
?< 1ex 开 配 前 面 不 是 exp 的 位 置 


注 酸 | C9#commenmt) | 提供 注释 辅助 阅读 ， 不 对 正则 表达 式 的 处 理 产生 任何 影响 











例如 ， 简 单 的 IP 地 址 匹配 表达 式 如 下 : 





C\d{1, 3} \.) {3} \d {1, 3} 





要 理解 以 上 表达 式 ， 应 按 下 列 顺序 分 析 : 
1) 匹配 1 一 3 位 的 数字 : 





Nd 9) 








2) 匹配 3 位 数字 加 上 1 个 英文 句号 (分 组 ，， 重 复 3 次 (最 后 加 上 一 
个 1 一 3 位 的 数字 ) : 





(\d {1, 3} \.) {3} 





IP 地 址 中 每 个 数字 都 不 能 大 于 255， 所 以 严格 来 说 这 个 正则 表达 式 
是 有 问题 的 。 因 为 它 将 匹配 256.300.888.999 这 种 不 可 能 存在 的 IP 地 址 。 
如 果 能 使 用 算术 比较 ， 或 许 能 简单 地 解决 这 个 问题 ， 但 是 正则 表达 式 中 


没有 提供 关于 数学 的 任何 功能 ， 所 以 只 能 使 用 元 长 的 分 组 、 选 择 、 字 符 
类 来 描述 一 个 正确 IP 地 址 ， 如 下 所 示 : 





( (2[0-4] \d125[9-5] | [91]? \d\d? ) \.) {3} (2[0-4] \d|25[0-5] | [01]? \d\d?) 





思考 题 “理解 这 个 表达 式 的 关键 是 理解 “2[0-4] \d | 25[0-5] | [01]? 
\d \d? ” 读者 应 该 能 分 析出 它 的 意义 。 

默认 情况 下 ， 每 个 分 组 会 上 自动 拥有 一 个 组 号 ， 规 则 是 : 从 左 问 右 ， 
以 分 组 的 左 括号 为 标志 ， 第 一 个 出 现 的 分 组 ， 其 组 号 为 1， 第 二 个 为 2， 
以 此 类 推 ， 分 组 0 对 应 整个 正则 表达 式 。 


也 可 以 自己 指定 子 表达 式 的 组 名 ， 语 法 如 下 : 








? <Word> \w+ 





把 尖 括 号 换 成 单 引 号 也 行 ， 如 下 所 示 : 





? ' Word’ ANw+ 





这 样 就 把 \ w+ 组 名 指定 为 Word。 


提示 “组 号 分 配 远 没有 这 么 简单 。 组 号 分 配 过 程 是 要 从 左 向 右 扫 描 
两 迄 : 第 一 过 只 给 未 命名 组 分 配 ， 第 二 授 只 给 命名 组 分 配 。 因 此 ， 所 有 
命名 组 的 组 号 都 大 于 未 命名 的 组 号 。 可 以 使 用 语法 〈? : exp) 剥夺 一 
个 分 组 对 组 号 分 配 的 参与 权 。 








3.3.6 ”及 问 引 用 


反 回 引用 用 于 重复 搜索 前 面 某 个 分 组 匹配 的 文本 。 首 先 看 示 
例 , “1 代表 分 组 1 匹配 的 文本 : 








\b (CNwr) \b\st+\1\b 


以 上 表达 式 可 以 匹配 重复 的 单词 ， 例 如 go go 或 者 kitty kitty。 首 先 这 
个 表达 式 是 一 个 单词 ， 也 就 是 单词 开始 处 和 结束 处 之 间 大 于 一 个 的 字母 
或 数字 ， 即 “Nb (、\ w+) 入 b”， 这 个 单词 会 被 捕获 到 编号 为 1 的 分 组 
中 ， 然 后 是 1 个 或 几 个 空白 符 〈Ns+) ， 最 后 是 分 组 1 中 捕获 的 内 容 (也 
锅 是 前 面 严 配 的 那个 单词 ， 即 和 1， 这样 就 相当 于 把 所 匹配 的 重复 一 
次 。 


要 反 回 引用 分 组 捕获 的 内 容 ， 可 以 使 用 "\k< Word>”， 所 以 上 个 
例子 也 可 以 写成 这 样 : 





Nb (? <Word>\w+) \b\s+\k<Wword>\b 


例如 ， 要 捕获 字符 串 “\"This is a string”\"” 引 号 内 的 字符 ， 如 
果 使 用 以 下 正则 表达 式 : 


(NT) (NI ) 


将 返回 “This is a””。 显 然 ， 这 并 不 是 我 们 想 要 的 内 容 。 这 个 表达 
式 从 第 一 个 双 引 号 开始 匹配 ， 遇 到 单 引 号 之 后 就 错误 地 结束 匹配 。 这 是 


因为 表达 式 里 包含 " | ”， 也 就 是 双 引 号 〈") 和 单 引 号 〈”) 均 可 。 要 
修正 这 个 问题 ， 可 以 用 到 反 同 引用 。 
ng \9” 是 对 前 面 已 捕获 子 内 容 的 编写 ， 可 


以 作为 对 这 些 编组 的 “指针 2 引用。 在 此 例 中 ， 第 一 个 匹配 的 引号 就 由 1 
代表 。 可 以 这 么 写成 : 


[i 





如 采 使 用 命名 捕获 组 ， 可 以 写成 : 





(? P<quote>" | ) .*? (? P=quote) 





看 PHP 使 用 反 向 引用 的 例子 。 


在 很 多 论坛 中 都 会 看 到 UBB 标 签 代码 。UBB 标 签 最 早 的 设计 是 用 来 
在 论坛 和 留言 本 里 代 苦 HIML， 实 现 一 些 简 单 的 HTML 效果， 同时 防止 
滥用 HTML 出 现 安全 问题 。 例 如 ，HTML 中 粗 体 的 标签 是 : 





b> 粗 体 </b 二 





或 者 : 





<strong> 粗 体 </strong> 





而 UBB 标 签 则 是 : 





[b] 粗 体 [/b] 





UBB 标 签 以 其 更 好 的 安全 性 ， 目 前 已 经 成 为 论坛 发 帖 的 代码 标准 ， 
只 不 过 不 同 论坛 产品 的 叫 法 不 一 样 而 已 。 


最 终 ，UBB 标 签 还 是 要 解析 成 HTML 人 代码， 才能 让 浏览 器 认识 。 
个 过 程 是 怎样 实现 的 呢 ? 下面 以 URL 标 签 为 例 解释 。 


例如 ，UBB 标 签 “[urll.giff/urH” 用 于 插入 表情 。 在 解析 时 ， 需 要 把 
Li 欣 成 实际 路 答 ， 并 且 震 要 用 HTML 的 IMG 标 等 进行 革 交 | 方法 如 下 
外: 











? php 
Sston [ur1]1.gif[/u CH I gif[/url][url]3.gif[/ur1]’ 
$s= preg— replace ("#\[url\] (? <woRD>\d\.gif) \[\/u rN J#", "<img src=http: //image.ai.com/upload/ $1 
>", $str); 
var_ du ne ($s): 





结果 如 下 : 





string (141) "<img src=http: //image.ai.om/upload/1.gif> 
<img src=http: //image.ai.com/upload/2.gif> 
<img src=http: //image.ai.com/upload/3.gif>" 





古 不 是 很 简单 ?一 个 简易 表情 标签 残 这 样 实现 了 。 


这 里 再 给 出 一 个 表达 式 实现 同样 的 效果 : 





= hp 

$str=' [url]1.gif[/ur1][ur1]2.g9if[/ur1][ur1]3.gif[/ur1]’ ; 
$s=preg_ replace ("#\[url\] (.*? ) \[\/url\]#", "<img 
src=http: //image.ai.com/upload/ $1>", $str); 

var_dump ($s) ， 








> 


提示 ”这 个 正则 表达 式 涉及 贪 梦 /懒惰 匹配 知识 ， 后 面 会 进一步 


绍 。 


va 


3.3.7 ”环视 


肠 言 用 来 声明 一 个 应 该 为 真 的 事实 。 正 则 表达 式 中 ， 只 有 当 断 言 为 
真 时 才 会 继续 进行 匹配 。 断 言 匹 配 的 是 一 个 事实 ， 而 不 是 内 容 。 本 节 介 
绍 四 个 断言 ， 它 们 用 于 碍 找 在 茶 些 内 容 《〈 但 并 不 包括 这 些 内 容 ) 之 前 或 
之 后 ， 也 就 是 一 个 位 置 ( 如 Nb、”、) 应 该 满足 的 一 定 条 件 〈 即 断 
证 ? 因此 也 和 称 为 零 宽 断 言 。 


1. 顺 序 肯 定 环视 (? =exp) 


零 宽 度 正 预测 先行 断言 ， 又 称 顺序 肯定 环视 ， 上 断言 自身 出 现 位 置 的 
后 面 能 匹配 表达 式 exp。 


比如 ， 匹 配 以 “ing” 结 尾 的 单词 前 面部 分 (除了 “ing” 以 外 的 部 
分 ) : 








NbNw+ (? =ingN\b) 





以 上 表达 式 碍 找 以 下 句子 时 ， 会 匹配 “sing” 和 “danc”: 





I' m singing while you' re dancing . 





2. 逆 序 肯 定 环视 (? 二 =exp) 


新 面 能 0 


比如 ， 以 re 开头 的 单词 的 后 半 部 分 〈 除 了 re 以 外 的 部 分 ) : 





(? <=\bre) \w+\b 








以 上 表达 式 在 查找 以 下 句子 时 匹配 “ading”: 





reading a book 








假如 在 很 长 的 数字 中 ， 每 3 位 间 加 1 个 逗号 《当然 是 从 右边 加 起 ) ， 
可 以 在 前 面 和 里 面 添加 逗号 的 部 分 : 





((? <=\d) \d {3} ) +\b 





用 以 上 表达 式 对 “1234567890” 进 行 查 找 ， 结 果 是 “，234，567， 
890”。 这 里 的 逗号 只 是 匹配 需要 添加 逗号 的 位 置 ， 还 没有 实际 添加 过 
号 
oo 








下 面 这 个 例子 同时 使 用 这 两 种 断言 ， 匹 配 以 空 晶 符 间 隔 的 数字 《再 
次 强调 ， 不 包括 这 些 空白 符 ) : 








{No NY 








前 面 提 到 过 反 义 ， 用 来 伍 找 不 是 条 个 字符 或 不 在 菜 个 字符 类 里 的 字 
符 。 如 果 只 是 想 要 确保 茶 个 字符 没有 出 现 ， 但 并 不 想 去 匹配 它 时 怎么 
办 ? 例如 ， 如 果 想 奏 找 这 样 的 单词 一 一 出 现 字 母 q9， 但 是 dg 后面 跟 的 不 是 
字母 。 可 以 答 试 这 样 : 




















NbNwx*q[ ulNw*Nb 








以 上 表达 式 匹 配 包 售后 面 不 是 字母 u 的 字母 qd 的 单词 。 但 是 如 果 多 做 
几 次 测试 就 会 发 现 ， 如 果 q 出 现在 单词 的 结尾 ， 例 如 Iraq、Benq， 这 个 
表达 式 就 会 出 错 。 这 是 因为 [“ 可 总 要 匹配 一 个 字符 ， 如 果 q 是 单词 的 最 
后 一 个 字符 ， 后 面 的 “[“u]” 将 会 下 配 g 后 面 的 单词 分 隅 符 〈 可 能 是 空 
格 、 句 号 或 其 他 ) ， 后 面 的 “\w*\b” 将 会 四 配 下 一 个 单词 ， 于 是 以 上 
表达 式 就 能 匹配 整个 Iraq fighting。 


逆序 肯定 环视 能 解决 这 样 的 问题 ， 因 为 它 只 匹配 一 个 位 置 ， 并 不 消 
费 任 何 人 字符。 现在， 解决 这 个 问题 如 下 所 示 : 





\b\w*q (? !u) \w*\b 





3. 顺 序 否定 环视 (? ! exp) 
零 宽度 负 预 测 先行 断言 ， 又 称 顺序 否定 环视 ， 断 言 此 位 置 的 后 面 不 


能 匹配 表达 式 “exp”。 例 如 : 
1) 匹配 3 位 数字 ， 而 且 这 3 位 数字 的 后 面 不 能 是 数字 : 





\d{3} (? ! Nd) 





2) 匹配 不 包含 连续 字符 串 abc 的 单词 : 





N\b((? !abc) \w) +\b 





如 果 匹 配 的 单词 是 c 开 头 、t 结 尾 ， 中 间 有 一 个 字符 ， 但 不 能 是 
u (也 就 是 说 ， 整 个 单词 不 能 是 cut) ， 直 接 用 “c[“ uj]t* 就 可 以 了 ， 若 中 
间 的 字符 不 能 是 a 或 (也 就 是 说 ， 整 个 单词 不 能 是 cat 或 cut) ， 则 表达 
式 改 为 “c[ “aul]t”。 


如 果 认 真 读 过 关于 排除 型 字符 组 的 章节 的 读者 肯定 会 知道 ， 这 个 表 
达 式 能 匹配 的 只 是 cot 之 类 的 单词 ， 因 为 中 间 的 排除 型 字符 组 “[ > au]” 必 
须 匹 配 一 个 字符 。 可 是 ， 如 果 还 想 匹 配 chart、conduct 和 court 怎 么 办 ? 
最 简单 的 想法 是 : 去掉 排 除 型 字符 组 的 长 度 限制 ， 改 成 “c[ ”au]+t”。 


不 柱 的 是 ， 这 样 行 不 通 ， 因 为 这 个 表达 式 的 意思 是 : c 和 {t 之 间 由 多 
于 一 个 “ 除 a 或 u 之 外 的 字符 ”构成 ， 而 chart、conduct 和 court 都 包含 a 或 u。 


我 们 发 现 ， 其 实 要 否定 的 是 “单个 出 现 的 a 或 w*， 而 不 仪 仪 是 “出 现 
的 a 或 u*， 所 以 才 出 现 这 样 的 问题 。 要 解决 这 个 问题 ， 就 应 当 把 意思 准 
确 表 达 出 来 ， 变 成 “在 结尾 的 t 之 前 ， 不 允许 只 出 现 一 个 a 或 u*"。 想 到 这 一 
步 ， 就 可 以 用 顺序 否定 环视 (? ! ......) 来 解决 。 表 示 在 这 个 位 置 向 
右 ， 不 允许 出 现 子 表 达 式 能 够 思 配 的 文本 ， 把 子 表达 式 规 定 为 “[auljt 、\ 
b”( 最 后 的 “\b” 很 重要 ， 它 出 现在 t 之 后 ， 保 证 t 是 蛙 词 的 结尾 字母 ，。 
有 了 了 限制， 匹配 a 和 t 之 间 文 本 的 表达 式 就 随意 很 多 ， 可 以 用 匹配 单词 字 
符 的 简 记 法 “\w” 表 示 ， 于 是 整个 表达 式 变 成 : 























c (? ! [aultN\b) \w+tt 





注意 ”这 里 出 现 的 并 不 是 排除 型 字符 组 <[ “au]j”， 而 是 普通 的 字符 
组 [au]， 因 为 顺序 否定 环视 本 身 已 经 表示 了 驹 定 。 








进一步 思考 ， 整 个 匹配 文本 中 都 不 能 出 现 字 符 串 “cat”， 要 怎么 办 
呢 ? 这 个 正则 表达 式 应 该 是 : 





1 








即 在 文本 中 的 任意 位 置 ， 都 不 能 出 现 该 字符 串 。 
4. 逆 序 否 定 环视 (? 二 ! exp) 
零 宽 度 负 回顾 后 发 断言 ， 又 称 逆序 否定 环视 ， 可 以 用 (? =<! 


exp) 断言 此 位 置 的 前 面 不 能 匹配 表达 式 exp。 例 如 ， 前 面 不 是 小 写字 母 
的 7 位 数字 : 








(? <! [a-z]) \d {7} 





分 析 以 下 表达 式 ， 匹 配 不 包含 属性 的 简单 HIML 标 签 内 的 内 容 : 





KW 








以 上 表达 式 最 能 表现 零 宽 断言 的 真正 用 途 。《〈<? (\w+) >) 
指定 前 绥 为 : 被 尖 括 号 括 起 来 的 单词 《比如 可 能 是 “<b>”) ， 然 后 
是 “.*”《 任 意 的 字符 串 ) ， 最 后 是 一 个 后 缀 〈? =<\/ 八 1>) 。 注 意 后 
级 里 的 “/*”， 用 到 了 前 面 提 过 的 字符 转 义 ;“\1” 则 是 反 辐 引用 ， 引 用 
的 正 是 捕获 的 第 一 组 ， 即 前 面 (\w+》 匹 配 的 内 容 ， 如 果 前 缀 实际 上 
是 “<b>”， 后 缀 就 是 “< 由 >”。 整 个 表达 式 匹 配 的 是 “<b>” 和 “雪山 
”之 间 的 内 容 〈 再 次 提醒 ， 不 包括 前 级 和 后 级 本 身 )。 


总 体 而 言 ， 环 视 相 当 于 对 “所 在 位 置 ?附加 一 个 条 件 ， 难 点 就 在 于 找 
到 这 个 “位 置 "。 这 一 点 解决 了 ， 环 视 就 没有 什么 秘密 可 言 了 。 


3.3.8 贪 焚 /懒惰 匹配 模式 


当 正 则 表达 式 中 包含 能 接受 重复 的 限定 符 时 ， 通 利 的 行为 是 “在 使 
整个 表达 式 能 得 到 匹配 的 前 提 下 ) 匹配 尽 可 能 多 的 字符 。 例 如 以 下 表达 
式 将 匹配 以 a 开 始 ， 以 b 结 束 的 最 长 字符 串 : 
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如 采用 来 搜索 “aabab”， 它 会 匹配 整个 字符 串 “aabab”。 这 就 是 贫 梦 
匹配 。 





有 时 ， 需 要 匹配 尽 可 能 少 的 字符 ， 也 就 是 懒惰 匹配 。 前 面 给 出 的 限 
定 符 都 可 以 转化 为 懒惰 匹配 模式 ， 只 要 在 后 面 加 上 一 个 问号 。 例 
如 “.*? ”就 意味 独 匹 配 任意 数量 的 重复 ， 但 是 在 能 使 整个 匹配 成 功 的 前 
提 下 使 用 最 少 的 重复 。 例 如 ， 匹 配 以 a 开始 、 以 b 结 束 的 最 短 字 符 串 ， 正 
则 表达 式 如 下 : 








Wb 





把 上 述 表 达 式 应 用 于 aabab， 如 果 只 考虑 “.*? ”这 个 表达 式 ， 最 先 会 
匹配 到 aab 〈1 一 3 字符 ) 和 ab《〈 第 2 一 3 个 字符 ) 这 两 组 字符 。 


为 什么 第 一 个 匹配 是 aab 〈 第 1 一 3 个 字符 ) 而 不 是 ab 〈 第 2 一 3 个 字 
符 ) ? 简单 地 说 ， 正 则 表达 式 有 男 一 条 规则 ， 比 懒惰 / 仿 禁 规则 的 优先 
级 更 高 ， 最 先 开始 的 匹配 拥有 最 高 优先 权 。 

第 用 懒惰 限定 符 如 表 3-5 所 示 。 


表 3-5 懒惰 限定 符 
懒惰 限定 符 代码 /语法 描 述 
7 重复 任意 次 ， 但 尽 可 能 少 重 复 





重复 ! 次 或 更 多 次 ， 但 尽 可 能 少 重 复 
重复 0 次 或 1 次， 但 尽 可 能 少 重复 
得 复 到 mm 次 ,但 尽 可 能 少 重复 
重复 n 次 以 上 ， 但 尽 可 能 少 重 复 





懒惰 模式 匹配 原理 简单 来 说 ， 是 在 匹配 和 不 匹配 都 可 以 的 情况 下 ， 





优先 不 匹配 ， 记 录 备 选 状态 ， 并 将 匹配 控制 交 给 正则 表达 陈 的 下 一 个 匹 
配 字符 。 当 后 面 的 匹配 失败 时 ， 回 溯 ， 进 行 匹 配 。 关 于 回调 以 及 正则 表 
达 式 效率 等 高 级 内 容 ， 可 以 查阅 《精通 正则 表达 式 》 一 书 。 


在 3.3.6 节 涉及 懒惰 匹配 ， 把 该 节 的 例子 稍 作 更 改 : 





=? php 

$str 过 rl1]i. A rillj[u el 9 if[/url][u 1 a Er 1 

s=preg_replac #N[urlN] CGC.*) \E\ /url\ ]#' img src=http: //image.aiyooyoo.om/upload/ $1>", $str); 
ii ($s); 


< 
EE 
= 





在 信 禁 模式 下 ， 由 于 匹配 表达 式 是 “.*”， 即 任意 字符 出 现任 意 次 ， 
这 个 正则 表达 式 会 一 直 匹 配 [ur] 后 的 内 容 ， 直 到 遇 到 结束 条 件 <“[ 和 /。 
匹配 结果 如 图 3-3 所 示 。 


[url]l .gifl/orl ler 2. gf /rl [orl 3 .sift/url) | 
\ 一 /一 
图 3-3 运行 结果 


提示 ”实际 开发 中 ， 涉 及 贪 梦 模式 与 懒惰 模式 的 地 方 是 很 多 的 。 在 
一 定 情况 下 ， 使 用 懒惰 模式 可 以 减少 回调 ， 提 高 效率 。 





3.4 构造 正则 表达 式 

在 构造 和 理解 正则 表达 式 的 过 程 中 ， 通 常 都 是 由 简 到 繁 的 过 程 ， 如 
果 理 解 正则 表达 式 内 部 间 的 关系 ， 就 可 以 把 比较 复杂 的 正则 表达 式 拆 分 
成 几 个 小 块 来 理解 ， 从 而 帮助 消化 。 
3.4.1 正则 表达 式 的 逻辑 关系 


本 或 、 非 来 描述 ， 如 表 
3-6 有 未 。 








表 3-6 正则 表达 式 间 的 逐 辑 关系 


逻辑 关系 描 述 
与 在 某 个 位 置 ， 某 些 元 素 【字符 、 字 符 组 或 者 子 表 达 式 ) 必须 出 现 
在 某 个 位 置 ， 某 个 元 素 或 许 出 现 ， 或 许 不 出 现 ;， 或 长 度 和 出 现 次 数 不 固定 ， 或 者 是 某 几 个 元 素 
和 二 
中 的 一 个 


非 在 某 个 位 置 ， 某 些 匹 式 不 出 现 

通常 来 说 ， 正 则 表达 式 可 以 看 做 这 三 种 逻辑 关系 的 组 合 。 下 面 分 析 
这 三 种 逻辑 。 

1 与 


“与 ”是 正则 表达 式 中 最 普遍 的 逻辑 关系 。 一 般 来 说 ， 如 果 正 则 表达 
式 中 的 元 素 没有 任何 量词 《比如 *、? 、+) 修饰 ， 就 是 “与 关系。 比如 
正则 表达 式 : 





abc 


表示 必须 同时 出 现 a、b、c 三 个 字符 。 


连续 字符 是 “与 ”关系 的 最 佳 代表 。 此 外 ， 有 些 环视 结构 也 可 以 表 
达 “ 与 "关系 。 比如 顺序 肯定 环视 (? =exp)〉 表示 自身 出 现 的 位 置 后 面 能 
匹配 表达 式 exzp， 换 而 言 之 ， 就 是 在 它 后 面 必须 出 现 表 达 式 exzp。 例 如 : 











\w+ (? =ing) 


表示 单词 的 后 面 必须 是 ing 结 尾 。 
除了 顺序 肯定 环视 外 ， 逆 序 肯 定 环视 也 能 表达 “与 ?关系 。 


比如 匹配 DIV 标签 里 的 内 容 ， 例 如 过 div>logo</div 之 中 的 logo， 就 
可 用 以 下 正则 表达 式 来 匹配 : 


(? <=<div>) .* (? =< /div>) 





“(3 二 =<div> ) ”表示 自身 〈 即 要 匹配 的 部 分 ) 出 现 的 位 置 前 面 
匹配 表达 式 “<div>”，“ (? =<</div> ) ”表示 它 的 后 面 需要 匹配 表达 
式 “</div>”， 中 间 的 “.*>” 就 是 匹配 到 的 内 容 。 


2. 或 
“或 ”是 正则 表达 式 中 容易 出 现 的 逻辑 关系 。 
如 果 “ 或 ”代表 元 素 可 以 出 现 ， 也 可 以 不 出 现 ， 或 者 出 现 的 次 数 不 确 


定 ， 可 以 用 量词 来 表示 ?或 "关系 。 比 如 以 下 表达 式 表示 在 此 处 ， 字 符 a 
可 以 出 现 ， 也 可 以 不 出 现 : 

















以 下 表达 式 表示 在 此 处 ， 字 符 串 ab 必 然 要 出 现 1 次 ， 也 可 以 出 现 无 
限 多 次 : 





『 Cab) +] 





如 果 “ 或 ”表示 出 现 的 是 某 个 元 素 的 一 个 ， 那 么 可 以 使 用 字符 组 。 比 
如 以 下 正则 表达 式 表示 此 处 出 现 的 字符 是 a、b、c 中 的 任何 一 个 : 


[abc] 





如 末 要 匹配 多 个 字符 ， 则 使 用 分 支 结构 (..…….. | .………. ) 。 比 如 匹配 
单词 foot 及 其 复数 形式 ， 就 可 以 用 正则 表达 式 : 


f (oo | ee) 上 





或 者 使 用 以 下 形式 : 





f[oe] {2} t 
3. 非 





提 到 “ 非 "， 最 容易 想到 正则 表达 式 中 的 反 义 和 “^* 元 字符 。 比 
如 “\ 中 表示 数字 ， 那 么 其 对 应 的 \ DD 就 表示 非 数字 ，[a] 表 示 a 字 符 ， 屠 
么 [“ a] 就 表示 这 个 字符 不 是 a。 


“ 非 ? 关 系 最 常用 来 匹配 成 对 的 标签 ， 例 如 双 引 号 字符 串 的 匹配 ， 首 
尾 两 个 双 引 号 很 容易 匹配 ， 其 中 的 内 容 肯 定 不 是 双 引 号 《〈 暂 不 考 夸 转 义 
的 情况 ) ， 所 以 可 以 用 [“"] 表 示 ， 其 长 度 不 确定 ， 用 * 来 限定 ， 所 以 整 
个 表达 式 如 下 : 























比如 ， 需 要 匹配 HTML 里 成 对 的 A 标签 ， 先 匹配 左 尖 括号 ， 紧 接着 
是 a 字符 ， 后 面 可 以 是 任意 内 容 ， 最 后 是 一 个 右 尖 括号 。 在 这 对 括号 之 
间 可 以 出 现 空 格 、 字 母 、 数 字 、 引 号 等 字符 ， 但 是 不 能 出 现 “> 字符 ， 
于 是 就 可 以 用 排除 型 字符 组 <[ * 之 ]” 来 表示 。 再 加 上 后 面 的 配对 标签， 
整个 表达 式 如 下 ; 











<a[l“>]*>.*<\/a> 





运行 下 面 这 段 代 人 码 验证 这 个 表达 式 : 





-hh 

$reg="#<a[ “>]*> (.*) <\/a>#"; 

$str=’ <a href="http: //baidu.com">baidu</a>some<a href="http: //sohu.com">sohu</a>’; 
preg_ match all ($reg, $str, $m):; 

var_dump ($m); 





运行 结果 如 下 : 





array (2) { 
array (1) { 
[0]=> 


string (74) "<a href="http: //baidu.com">baidu<=/a>some<a href="http: //sohu.com"> 
a>" 


[1]=> 

array (1) { 

[9]=> 

string (43) "baidu<=/a>some<a href="http: //sohu.com">sohu" 
} 


} 








发 现 结果 不 符合 预期 ， 出 现 了 花 套 匹配 。 原 因 在 于 A 标 签 之 间 的 文 
本 扎 了 做 排除 型 匹配 ， 于 是 修改 后 的 正则 表达 式 就 成 了 “<a[ ”>>]#*> 
〔([ 过 全 二 ”经 过 修改 后 就 符 侣 预期 了 。 


除了 反 义 和 排除 型 字符 组 外 ， 人 否定 环视 也 能 表示 "“ 非 ?这 种 关系 。 比 
如 有 一 串 文 字 :“ab<p>onecde<div>fgh</div 之 和 <img src="…" 盖 ”。 现 
在 需要 匹配 除 P 标 签 外 的 所 有 标签 。 换 而 言 之 ， 就 是 先 匹配 所 有 HTML 
标签 ， 可 以 使 用 如 下 表达 式 : 








</? \b[ “>]+> 





匹配 闭合 的 “二 XXX 二 ”或 “二 /XXX 二 ”标签 ， 然 后 再 排 
除 “XXX” 或 “/XXX” 部 分 是 P 的 标签 ， 于 是 使 用 顺序 否定 环视 ， 用 表达 
式 : 





(? 1/?p\b) 





排除 了 “<” 或 “<<” 这 个 位 置 后 是 P 字 符 的 情况 ， 这 样 就 满足 需求 
了 。 最 终 的 表达 式 则 为 : 





< (? 17/?pNb) [>]+> 








通过 上 面 的 分 析 得 到 正则 表达 式 中 的 “与 或 非 ” 关 系 及 其 代表 语法 ， 
如 表 3-7 所 示 。 


表 3-7 正则 表达 式 中 的 “与 或 非 ” 关 系 及 其 代表 语法 
水 辑 关系 代表 语法 
与 连续 字符 、 肯 定 环 视 {顺序 肯定 ， 道 序 肖 定 ) 
或 量词 、 字 符 组 
非 排除 型 字符 、 反 义 、 理 定 环视 【〔 顺 序 香 定 ， 道 序 吾 定 ) 


3.4.2 ”运算 符 优 先 级 


正则 表达 式 从 左 到 右 进行 计算 ， 并 遭 循 优先 级 顺序 ， 这 与 算术 表达 
式 非常 类 似 。 表 3-8 说 明了 各 种 正则 表达 式 运算 符 的 优先 级 顺序 ， 其 中 
优先 级 从 上 到 下 、 由 高 到 低 排 列 。 





表 3-8 正则 表达 式 运 算 符 的 优先 级 


\anymetacharacter ， anycharacter 定位 点 和 序列 
答 换 


字符 的 优先 级 比 蔡 换 运 算 符 高 ， 蔡 换 运算 符 允 许 m | food 与 m 或 
要 匹配 mood 或 food， 使 用 括号 创建 子 表达 式 ， 从 而 产生 如 下 
工 N 


(ml|f) ood 





3.4.3 ”正则 表达 式 的 常用 模式 


模式 (Pattern Modifiers) 就 是 可 以 改变 表达 行为 的 字符 ， 用 来 关闭 
或 打开 某 些 特殊 功能 ， 习 惯 上 又 称 为 正则 修饰 符 。 每 种 语言 提供 的 正则 
表达 式 所 支持 的 修饰 符 都 不 一 样 ， 这 节 介 绍 一 些 基本 修饰 符 及 常用 模 
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1. 忽 略 大 小 写 模 式 (i) 

在 此 模式 下 ， 正 则 匹配 将 不 区 分 等 匹配 内 容 的 大 小 写 ， 这 在 HTML 
里 常用 。 由 于 HTML 本 里 的 容错 性 很 好 ， 对 大 小 写 混用 有 很 好 的 兼容 处 
理 能 力 ， 也 就 经 常会 出 现 无 论 是 标签 还 是 内 容 的 大 小 写 温 乱 问 题 ， 这 时 
采用 这 种 模式 就 能 很 好 地 人 处理 这 种 情况 。 示 例 代 码 如 下 : 

















<div>gg<\V/div> 在 忽略 大 小 写 模式 下 ， 可 匹配 : <div>g6</Div> 

<<? ph 

$str=’ <div>gG</Div>' ， 

if (preg_match (’ %<div>gg<\/div>%i’ , "<div>g6</Div>", $arr)) { 
ho" 匹 配 成 功 ". $arr[9]; 











忽略 大 小 写 是 针对 整个 表达 式 而 言 ， 而 不 仅仅 是 欲 匹配 的 部 分 。 所 
以 ， 可 以 在 代码 里 放心 地 使 用 此 修饰 符 。 但 是 出 于 效率 的 考虑 ， 尺 量 让 
正则 表达 式 所 指示 的 范围 更 精确 。 


注意 ， 修 饰 符 对 整个 表达 式 有 效 。 如 果 只 想 修 饰 部 分 表达 式 ， 可 以 
使 用 PCRE 的 内 部 选项 一 一 “局 部 修饰 符 "”。 比 如 下 面 表达 式 仅 匹 配 abc 和 
abC， 而 不 会 匹配 Abc: 











#ab (? i) c# 





也 就 是 说 ，(? i) 只 对 它 后 面 的 字符 c 起 作用 。 
2. 多 行 模式 (mm) 
在 讲 起 始 和 终止 符 时 提 过 :“ 勾 选 Multiline 选 项 ， 即 多 行 选项 。 如 果 


选中 了 这 个 选项 ,，““” 和 “$” 的 意义 就 变 成 四 配 行 的 开始 处 和 结束 处 ， 
舍 则 将 把 整个 输入 视 作 一 个 字符 串 ， 忽 视 换 行 行 。” 也 就 是 说 ， 正 则 表 








达 式 默认 开始 ”和 结束 只 是 对 于 正则 字符 串 ， 如 有 条 在 修饰 符 中 加 上 m， 
开始 和 结束 将 会 指 字符 串 的 每 一 行 ， 即 每 一 行 的 开头 就 是 ” ， 结 尾 就 是 
$。 











需要 注意 ，m 表 示 多 行 匹 配 ， 而 非 跨行 死 配 。 仅 当 表 达 式 中 出 现 
”、 中 人 至少 一 个 元 字符 且 字 符 串 有 换行 符 “\n” 时 ，m 修 饰 符 才 起 作用 ， 
否则 被 忽略 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 多 行 模式 





=? php 

$str="this is reg 

Reg 

this is 

regexp turtor, oh reg"; 
if (preg_ match all (’ %.*reg$%mi’ , $str, $arr)) { 
echo" 匹 配 成 功 "， 
var_dump ($arr) ; 

} else { 
echo" 匹 配 不 成 功 "; 

} 








在 预想 中 ,，“.*reg$$ "就 是 以 reg 结 尾 的 行 ， 由 于 加 了 mm 修饰 符 ， 按 理 
应 该 匹配 第 一 行 和 第 四 行 ， 但 实际 结果 呢 ? 如 下 所 示 : 





匹配 成 功 array (1) { 

[9]=> 

array (1) { 

String (20) "regexp turtor, oh reg" 
由 


} 





可 以 看 出 ， 只 匹配 最 后 一 行 的 reg， 而 第 一 行 昌 然 也 是 以 reg 结 尾 ， 
但 是 并 没有 被 匹配 。 这 里 用 到 mi， 也 就 是 把 修饰 符 n 和 ji 组 合 使 用 。 事 实 
上 ， 本 例 中 即使 去 掉 症 修饰 符 ， 最 终结 末 也 是 一 样 ， 这 说 明 $$ 只 能 表示 
最 后 一 行 。 把 正则 表达 式 改 为 : 








% °° t.*%mi 





匹配 的 结果 将 是 : 





匹配 成 功 array (1) { 

[9]=> 

array (2) { 

9]=> 

string (12) "this is reg" 
| 二 

string (8) "this is" 

} 


} 


匹配 到 两 行 ， 去 掉 症 修饰 符 只 匹配 到 第 一 行 。 可 见 ， 即 使 加 了 m 修 
饰 待 ， 也 不 是 将 整个 字符 串 都 匹配 ， 这 惑 是 路 行 与 多 行 的 区 别 。 


为 外 ， 使 用 m 模 式 匹 配 需 要 注意 换行 符 是 否 真 的 有 效 。 看 代码 清单 
3-2 所 示 的 例子 。 


代码 清单 3-2 多 行 模式 的 例子 














= 

$sourcel=' abcNnabcd' ; 

$ source2="abc \ nabcd"; 

if (preg_ match all (’ %“abc%m’ , $sourcel, $arr)) { 
echo" 匹 配 成 功 一"; 

var_dump ($arr) ; 

} else { 

echo" 匹 配 不 成 功 一 "; 

if (preg match all (’ %“abc%m’ , $source2, $arr)) { 
echo" 匹 配 成 功 一 "; 

var_dump ($arr) ; 

} else { 

echo" 匹 配 不 成 功 一 "; 
} 
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Eg 





运行 可 以 看 到 ， 由 于 sourcel 字 符 串 使 用 单 引 写 ，\n 作 为 普通 字符 
而 非 换 行 符 ， 因 此 匹配 到 的 结果 和 预期 不 符 。 


3. 点 号 通 配 模式 (s) 

点 写 通 配 模 式 的 作用 是 使 正则 表达 式 里 的 点 号 元 字符 可 以 匹配 换行 
符 ， 如 果 没 有 这 个 修饰 符 ， 点 号 不 匹配 换行 符 。 沿 用 上 面 的 例子 ， 如 代 
码 清单 3-3 所 示 。 


代码 清单 3-3 ”点 号 通 配 模式 








作坊: 三 
regexp turtor, oh reg"; 
if (preg_ match all (’ %this.*? reg%i’ , $str, $arr)) { 
echo" 匹 配 成 功 "; 
var_dump ($arr) ; 





el 
echo" 匹 配 不 成 功 "; 





前 面 学 习 过 ,，“.” 元 字符 表示 除 换行 符 以 外 的 任意 字符 。 所 以 按照 这 
个 推论 ， 上 述 正 则 表达 式 应 该 能 匹配 到 第 一 行 ， 即 “this is reg”， 而 第 三 
行 和 第 四 行 由 于 之 间 存 在 一 个 换行 符 ， 所 以 不 能 匹配 。 如 条 给 上 述 正 则 
表达 式 加 上 s 修 饰 符 ， 即 “%this.*? reg%is”， 那 么 匹配 结果 就 不 同 了 ， 如 





IA: 





匹配 成 功 array (1) { 
[9]=> 

orray. (204 

[09]== 

sti (11) "this is reg" 
1]= 

tino (13) "this is reg" 
} 


} 





可 以 看 出 ， 这 个 匹配 跨行 了 。 


我 们 只 要 牢记 ，s 修 饰 符 包括 换行 符 。 这 个 修饰 符 很 有 用 ， 特 别 是 
在 抓 取 一 些 文档 时 ， 由 于 存在 不 可 见 换行 (这 是 很 常见 的 ) ， 如 果 使 
用 “. ”匹配 ， 就 可 能 存在 问题 ， 这 就 需要 表达 式 能 匹配 换行 符 。 看 代码 清 
单 3-4 所 示 的 例子 。 


代码 清单 3-4 匹配 换行 符 











$str=’ <body> 

=<div class="content"> 

<div class="head"></div> 

=<div class=" body. > SYdiv> 

<div class="foot"><=/div> 

</div> 

<=/body> 

$array= array Os 

$array2=array () ; 

preg_ match all (’ |<body> (.*) <\/body>|', $str, $array):; 
var_ dump ($array); 

preg_match all (’ | <body> (.*) <\/body>|s’, $str, $array2):; 
var_dump ($array2) ; 





结果 是 第 一 个 正则 表达 式 没 有 匹配 到 任何 内 容 ， 而 第 二 个 正则 表达 
式 匹 配 生 body 之 标签 之 内 的 全 部 内 容 。 原 因 在 于 ， 要 匹配 的 文本 在 去 
body 二 标签 后 紧 接 着 是 一 个 不 可 见 换行 符 ， 从 而 导致 第 一 个 正则 表达 式 
匹配 失败 。 从 这 个 例子 中 更 能 深刻 体会 到 s 修 饰 符 的 作用 。 


4. 懒 惰 模 式 〈U) 


“U" 相 当 于 前 面 提 到 的 “? ”， 表 示 懒 惰 匹 配 ， 因 此 3.3.8 贡 的 例子 也 
可 以 改写 为 如 下 代码 : 











? php 
有 [urls A [ur1]2. SR gif[/url]’ ; 
$s=preg_replace ("#\[url\] (CG.*) \[\/url\]J#U", "<img src=http: //image.aiyooyoo.om/upload/ $1>", $str):; 
var_dump ($s) ， 





在 这 里 : 以 下 两 个 表达 式 作 用 是 等 价 的 。 


#\ [url\] (.*) \[\/url\]#U 





和 





ur 





5. 结 尾 限制 (D) 


如 果 使 用 限制 结尾 字符， 则 不 允许 结尾 有 换行 。 例 如 ， 以 下 正则 表 
达 式 将 罗 配 “abc*、“abc、\n” 这 样 的 字符 ， 即 忽视 结尾 的 换行 : 





%abc $% 





” ”如果 使 用 此 模式 ， 限 定 其 不 可 有 换行 ， 必 须 以 abc 结 尾 ， 如 下 所 
a 





%abc $ %D 





6. 支 持 UTF-8 转 义 表达 (u) 


u 修 饰 符 启 用 PCRE 中 与 Perl 不 兼容 的 额外 功能 ， 模 式 字 符 串 被 当成 
UTF-8。u 修 饰 符 在 UNIX 下 自 PHP 4.1.0 起 可 用 ， 在 Win32 下 自 PHP 4.2.3 
起 可 用 ， 目 PHP 4.3.5 起 开始 检查 模式 的 UTF-8 合 法 性 。 看 一 个 例子 : 





$ str="php 编 程 "; 
if (preg_ match ("/“[\x {4e00} -\x {9fa5} J+$/u", $str)) { 
echo" 该 字符 串 全 部 是 中 文 "; 





lse 
a 





正则 表达 式 中 使 用 了 u 修 饰 符 ， 残 可 以 使 用 UTF-8 的 转 义 表达 ， 这 
实际 上 有 是 兼容 问题 。 在 PHP 中 ， 使 用 此 修饰 符 即 可 实现 在 表达 陈 中 文 持 
UTF-8。 


提示 ”除了 上 述 几 个 模式 修饰 符 之 外 ，PHP 里 还 支持 力 外 几 个 修饰 
从 ， 如 A、x 等 ， 但 不 是 很 党 用 ， 这 里 就 不 做 讲解 了 。 





3.5 ”正则 在 实际 开发 中 的 应 用 


前 面 几 市 主要 讲解 了 正则 表达 式 一 些 基 础 知识 ， 本 市 几 个 例子 将 展 
示 正 则 表达 式 在 日 党 开发 中 的 应 用 。 


3.5.1 移动 手机 校 验 
首先 ， 我 们 练习 最 常用 的 正则 表达 式 : 移动 手机 校 验 。 


通过 查阅 相关 资料 知道 移动 的 号 段 有 : 134、135、136、137、 
138、139、150、151、157、158、159， 新 增 3G 号 182、183 和 188。 手 
机 豆 码 一 共 11 位 ， 前 3 位 为 运营 商号 段 ， 中 间 4 位 为 号 码 归 属地 ， 后 4 位 
为 随机 号 。 那 么 可 以 写 出 如 下 正则 表达 式 : 








(13[4-9] |15[91789] | 18[238]) \d {8} 











规则 很 简单 ， 匹 配 前 3 位 是 否 在 移动 号 码 段 里 ， 后 8 位 为 数字 即 可 。 
这 里 用 到 分 支 、 分 组 和 元 字符 这 三 个 知识 点 ， 用 PHP 代 码 测试 如 代码 清 
单 3-5 所 示 。 


代码 清单 3-5 ”测试 移动 手机 号 匹配 





p 

ile='′13500000000' ; 

x="! ~ (13[4-9] | 15[0189] | 188) \d {8} $1!"; 
preg_ match ($regex, $mobile)) { 
e(' 错误 的 移动 号 码 段 ! ′ ) ; 


和 和 
{ 
移动 手机 .” ); 











运行 结 来 符合 预期 。 注 意 第 三 行 代码 ， 在 前 面 已 经 说 过 ， 正 则 表达 
式 的 分 隅 符 只 要 遵循 规则 是 可 以 随意 的 。 所 以 这 里 用 的 是 感叹 号， 而 不 
0 当然 ， 用 # 一 也 可 以 〈 为 了 书写 美观 ， 一 般 不 用 和 斜 
Ls 


如 休 只 判断 手机 号 就 更 简单 了 ， 如 下 所 示 : 





1[358] \d {9} 





3.5.2 ”匹配 E-mail 地 址 
运用 学 过 的 知识 ， 我 们 实现 简单 的 E-mail 识 别 。 


E-mail 最 简单 的 形式 为 user@domain.com。 其 中 ，user 为 用 户 名 ， 
domain 为 域名 ，com 为 后 级 ; 当然 ， 后 绥 还 可 以 是 net、name、cn 等 。 一 
般 用 户 名 由 3 个 以 上 的 字母 和 数字 组 成 ， 当 然 也 不 能 太 长 ， 允 许 出 现下 
男 线 。 中 间 一 个 @ 符 号 ， 后 面 的 域名 长 度 为 1 一 64 人 位， 后缀 长 度 一 般 为 2 
一 5 位 ， 如 下 所 示 : 





\w {3, 16} @\w {1, 64} \.\w {2, 5} 





以 上 表达 式 匹 配 用 户 名 长 度 3 一 16 位 ， 紧 跟 一 个 @ 符 号 ， 然 后 是 1 一 
64 位 的 域名 ， 再 然后 是 dot〈. 号 ) ， 最 后 是 2~5 位 的 后 级 。 这 个 正则 表 
达 式 还 存在 一 些 问 题 ， 比 如 xxx_yyy@ya hoo.com.cn 这 样 的 地 址 ， 后 面 
的 .cn 就 无 法 匹配 到 。 这 就 需要 进一步 学 习 。 


Regular Expression Tester 工 具 提 供 一 些 预 定义 的 正则 表达 式 ， 它 提 
供 的 匹配 E-mail 的 正则 表达 式 如 下 : 








“ [a-z0-9_\-]+(\.[_ a-z0-9\-]+) *@ ([_a-z0-9\-]+\.)+ ([a-z] {2} |aero |arpa |biz | com | coop 
| edu | gov | info | int | jobs | mil | museum | name | nato | net | org | pro | travel) $ 





这 个 表达 式 很 长 ， 使 用 字符 组 和 分 支 条 件 语 法 ， 很 好 地 解决 了 
com.cn 这 样 多 个 后 级 域名 的 问题 。 相 信 现 在 读者 对 于 匹配 电话 号 人 码 、 
QQ 号 等 应 该 能 得 心 应 手 了 。 


3.5.3” 转 义 在 数据 安全 中 的 应 用 


数据 安全 是 任何 一 球 软 件 设计 中 都 需要 考虑 的 问题 。 从 技术 层面 
讲 ， 数 据 安 全 就 是 保护 存储 和 使 用 的 数据 不 被 稳 听 、 盗 取 和 破坏 。 这 可 
能 是 由 外 部 因素 造成 的 ， 比 如 由 于 过 滤 不 严格 造成 SQL 注入 漏洞 、 提 升 
脚本 执行 权限 等 ， 也 有 可 能 是 由 代码 内 部 设计 造成 的 ， 如 死 循环 、 低 效 
率 的 语句 造成 服务 器 性 能 下 降 以 致 影响 访问 。 


社会 学 意义 上 的 数据 安全 则 更 广泛 。 比 如 ， 在 在 线 购物 商城 的 设计 
中 ， 由 于 设计 者 错误 地 使 用 自 增 ID 作为 商品 的 单据 流水 号 ， 竞 争 对 手 或 
有 心 人 很 容易 分 析出 这 个 商城 的 每 日 销售 量 ， 进 而 估算 出 销售 额 、 利 油 
等 商业 机 密 数 据 。 


在 程序 中 要 保证 数据 的 安全 ， 除 了 要 保证 代码 内 部 运行 的 可 靠 外 ， 
最 主要 的 就 是 严格 处 理 外 部 数据 ， 即 秉持 “一 切 输入 输出 都 是 不 可 靠 
的 ”理论 ， 这 就 要 求 我 们 做 好 数据 过 小 和 验证 。PHP 编 程 中 最 简单 的 过 
ds 
古 简单 的 留言 本 。 


简单 留言 本 的 演示 代码 如 下 : 





=form action=""method="POST"> 











ll| 


品读 ， _ 莉 言 ， 
图 3-4 简单 的 留言 本 
人 


二 textarea name="content"><= 
<input type="submit"value=" 


: pnp 
echo$_POST[' content’ ]: 
FE 


程序 中 没有 任何 的 输入 输出 过 滤 ， 当 在 留言 框 中 输入 以 下 内 容 时 得 
到 如 图 3-5 所 示 的 页 面 。 


<style> 
Body {background: #000000} 


</style> 





很 显然 ， 由 于 输入 含有 CSS 代 码 和 JavaScript 人 代码， 没有 对 其 进行 处 
理 便 原样 输出 ， 导 致 页 面 被 算 改 。 这 就 是 常 说 的 “XSS 攻 击 ”。 


针对 上 面 的 情况 ， 只 需 在 接收 数据 时 使 用 htmlspecial chars 函 数 ， 把 
代码 中 的 特殊 字符 转 为 HIML 实 体 ， 这 样 在 输出 时 就 不 会 使 页 面 受 影响 
了 。 这 些 特殊 字符 主要 是 “”、“'′ ”“&”“<” “>2”。 比 如 把 “到 
script>>alert (1) ; 去/script 盖 ” 转 为 "& lt;， script&gt; alert (1) ; & 
lt; /script& gt; ”， 就 可 以 阻止 大 部 分 XSS 攻 击 。 








图 3-5 被 “攻击 ”后 的 留言 本 


注 _HIML 中 规定 字符 实体 引用 (HTML Entities) 还 有 对 应 的 数字 
型 实体 CNCR) ， 实 际 上 是 对 这 个 实体 的 编号 。 比 如 ，HIML Entities 的 
格式 “&]lt; 2 NCR 的 格式 “&#60; ”或 “QL#x3c; 2 均 表 示 “< ”字符 。 


有 的 时 候 ， 不 希望 出 现 这 些 无 意义 的 字符 ， 因 为 既然 页 面 不 允许 这 
些 HTML 标 签 ， 那 就 干脆 过 渡 掉 ， 而 不 是 显示 出 来 ， 这 样 页 面 就 不 会 留 
下 恶意 攻击 者 所 留 下 的 这 些 代码 。 要 达到 这 个 目的 ， 就 需要 借助 正则 表 
达 式 。 比 如 ， 要 过 滤 所 有 HTML 标签 的 正则 表达 式 如 下 所 示 : 





<NV? [>]+>// 过 滤 所 有 HTML 标 签 





这 个 正则 表达 式 匹 配 蝶 套 的 尖 插 号 ， 一 个 “\/? ”表示 和 斜 杠 可 有 可 
无 ， 这 样 束 巨 配 标 签 的 起 始 和 关闭 位 置 。“[” 二 ]+” 音 思 是 : 不 是 右 尖 括 
号 的 字符 重复 一 次 和 更 多 次 。 为 什么 不 是 “*” 昵 ?因为 HTML 标 签 里 至 
少 也 是 一 个 字符 ， 如 <b 二 ， 而 二 二 不 是 合法 HTML 标 签 ， 最 后 关闭 右 
尖 括 号。 用 下 面 字符 测试 : 














< 二 Strong>strong</strong>> 二 img src=a.jpg/> 





其 匹配 情况 如 图 3-6 所 示 。 





外 军 
gtrong</acxong> 











图 3-6 程序 运行 结果 


从 图 中 可 以 看 出 ， 运 行 结果 基本 符合 我 们 的 需求 。 同 理 ， 还 可 以 只 
保留 部 分 HTML 标 签 ， 既 不 造成 安全 问题 ， 又 能 使 页 面 内 容 更 丰富 ， 这 
就 可 以 利用 UBB 代 码 功 能 来 实现 。 


前 面 提 到 过 用 正则 表达 式 实现 UBB 标 签 的 功能 比较 麻烦 ， 但 在 这 里 
只 需要 白 名 单 功能 ， 即 只 保留 比较 “安全 ”的 标签 ， 通 过 PHP 内 置 的 strip 
_ tags 冰 数 可 以 容易 做 到 。 这 个 函数 用 于 从 字符 串 中 去 除 HIML 和 PHP 
标记 ， 仅 保留 参数 中 指定 的 标签 。 演 示人 代码 如 下 所 示 : 














$text=’ <p>Test paragraph. 二 ! —Comment—><a href="#fragment">0Other text</a>’; 
echo strip tags ($text). 

echo" \n"; 

// 人 允许 <p> 和 <a> 

echo strip_ tags ($text, ' <p><a>’ ); 








另外 ， 在 SQL 语句 构造 中 ， 当 字符 含有 引号 的 时 候 ， 可 能 造成 SQL 
解析 和 执行 失败 。 这 样 就 要 求 转 义 。 一 种 处 理 办 法 是 把 引号 转 义 成 实 
000 


addslashes 函 数 返回 一 个 字符 串 ， 该 字符 串 为 了 数据 库 查询 语句 等 
的 需要 在 某 些 字符 前 加 上 了 反 和 斜 线 。 这 些 字符 是 单 引 号 (′ ) 、 双 引号 
(") 、 反 和 斜 线 (入 ) 与 NUL CNULL 字 符 ) 。 








注意 为 了 处 理 更 多 情况 ， 还 需要 特别 注意 “%”、“ ”等 特殊 字 
人 符 。 如 果 能 转 义 则 进行 转 义 ， 没 有 对 应 的 转 义 时 ， 则 进行 过 小 。 


3.5.4 ”URL 重 写 与 搜索 引 敬 优化 


UREL 重 写 (Rewrite) 是 截取 传 入 Web 请 求 并 日 动 将 请 求 重 定 癌 到 其 
他 URL 的 过 程 。 比 如 浏览 器 发 来 请 求 hostname/list 。 1， 服务 器 日 动 将 这 
个 请 求 中 定向 为 http: //hostname/list.php? id=1。 该 技术 常用 于 搜索 引擎 
优化 (Search Engine Optimization, SEO) 。 


伪 静 态 也 是 重 写 的 一 种 实现 。 例 如 ， 某 论坛 网 址 为 forum 17 
1.html， 实 际 地 址 可 能 是 fo rum.php? fid=17&page=1， 其 中 第 一 个 数字 
是 版 块 ID， 第 二 个 数字 是 页 数 。 这 样 的 网 址 看 起 来 比较 短 ， 没 有 一 大 堆 
的 区 符号 和 GET 参 数 ， 不 但 用 户 喜 欢 这 种 友好 的 网 址 ， 搜 索引 擎 也 喜欢 
这 种 简洁 明了 的 网 址 。 


URL 重 写 有 两 种 实现 方式 : 

纯 代码 实现 ， 通 过 解析 PATH_INFO 实 现 。 

服务 器 实现 ， 如 利用 Apache 的 mod ”rewrite 模块 实现 。 

下 面 先 介绍 利用 mod__rewrite 实 现 重 写 的 方法 。 例 如 ， 实 现 列表 页 
面 list.php? Mode=A 重 写 为 伪 静 态 list A.html， 步 又 如 下 假设 工程 的 根 
目录 是 E: /dewwww/phpmew) 。 


首先 ， 配 置 Apache。 在 httpd.conf 里 把 以 下 所 示 的 这 一 行 代码 前 面 的 
# 去 掉 ， 启 用 Rewrite 规 则 。 








#LoadModule rewrite module modules/mod _ rewrite.so 





在 对 应 的 二 Directory"E: /dev/Jwww/php" 二 配置 项 下 设置 
AllowOverride All。 


在 网 站 E: /dev/www/php/new 目 录 下 新 建 .htaccess 文 件 ， 并 输入 如 下 
内 容 : 





RewriteEngine on 
RewriteRule index.html index.php 
RewriteRule list- ([A-Z]+) \ .html$1ist.php? mode=$1[NC] 





重启 Apache。 现 在 访问 http: /127.Ulist A.html 看 看 效果 吧 。 可 以 看 
到 访问 http: /127.Ulist A.html 和 http: //127.1/list.php? mode=A 指 同 的 是 
同一 个 页 面 ， 这 就 说 明 伪 静 态 设 置 成 功 了 。 

现在 逐条 解释 其 原理 。 

Apache 开 局 Rewrite 模 块 ， 该 模块 默认 是 关闭 的 。 


设置 AllowOverride Al 的 目的 是 让 .htaccess 文 件 生 效 ， 如 果 把 
AllowOverride 设 置 成 hone，.htaccess 文 件 将 被 完全 忽略 。 


新 建 一 个 .htaccess 文 件 。.htaccess 文 件 是 Apache 中 重要 的 配置 文 
件 ， 其 格式 为 纯 文本 。 它 提供 针对 目录 改变 配置 的 方法 ， 通 过 在 一 个 特 
0 目录 中 放置 包含 一 个 或 多 个 指令 的 文件 ， 作 用 于 此 目录 及 其 所 
I 


注意 Windows 资 源 管 理 器 里 不 允许 建 并 .htaccess 文件， 可 以 在 命 
令 行 窗 口 输入 “echo 二 .htaccess” 达 到 新 建 的 目的 。 


以 下 是 对 .htaccess 中 每 一 行 代码 的 解释 。 
1) 打开 运行 时 重 写 功 能 ， 其 默认 是 关闭 : 





RewriteEngine on 





2) 建立 一 条 重 写 规 则 ， 把 index.php 重 写 为 index.html: 





RewriteRule index.html index.php 





很 显然 ， 这 是 一 个 伪 静 态 ， 而 “index.html index.php” 是 最 简单 的 正 
则 表达 式 。 


3) 把 原 地 址 listphp? mode=1 形 式 重 写成 list ([A-Z]+)\ .html: 





RewriteRule list- ([A-Z]+) \ .htm1$1ist.php? mode=$1[NC] 





实际 上 上 述 代码 可 以 理解 为 ， 如 果 Apache 过 到 符合 正则 表达 式 list 


〈[A-Z]+) 、\ html 的 请 求 ， 先 捕获 第 一 个 括号 里 的 值 《 这 是 紧 换 着 list 
后 面 ， 以 .html 结 尾 的 一 个 字母 )》 ， 那 么 就 重 定 向 到 真实 的 请 求 地 址 

list.php? mode=1， 而 1 是 正则 表达 式 里 的 反 向 引用 。 这 吏 是 重 写 的 语 
意 。 插 号 中 的 “NC” 表 示 大 小 写 不 敏感 。 


如 果 这 个 页 面 还 有 分 页 应 该 怎么 写 ? 比如 list.php? mode=A& 
page=2。 为 了 让 URL 更 有 意义 ， 可 以 把 这 个 地 址 重 写 为 list A page 
2.htm1。 照 葫 疡 画 球 ， 在 已 有 基础 上 添加 一 条 规则 ; 











RewriteRule list- ([A-Z]+) -page- (\d? ) .htm191ist.php? mode=$1&page=$2 





现在 直接 访问 list A page 2.html 试 试 。 由 于 RewriteEngine 为 on， 所 ， 
这 一 步 并 不 需要 重启 Apache。 虽 然 现 在 可 以 访问 了 ， 但 是 不 是 觉得 这 
写 很 素 竟 ? 


第 二 条 和 第 三 条 午 写 规则 都 十 针对 list.php 文 件 ， 可 以 合并 成 一 条 
吗 ? 答案 是 可 以 的 。 完 整 .htaccess 文 件 如 下 : 

















RewriteEngi 

RewriteRu Pe" 了 .htm 

#RewriteRule list- Ee a ~ hms St poe ode BTN a 

RewriteRule list- ([A-Z]+ (\d?) \.html $1 php? mode= $1&page=$2[NC] 








新 的 重 写 规则 就 是 最 常用 的 正则 表达 式 ， 如 *? : ”表示 非 捕 获 性 匹 
配 。 只 要 理解 了 正则 表达 式 ， 再 辅 之 以 Apache 手 册 ， 掌 握 URL 重 写 就 会 
成 为 一 件 很 轻松 地 事情 。 


提示 ”Nginx 也 能 实现 网 址 静态 化 ， 而 且 语 法 上 几乎 没什么 差别 ， 
用 到 的 都 是 基于 正则 表达 式 的 语法 。 


使 用 URL 重 写 能 给 网 站 市 来 哪些 好 处 呢 ? 

1) 有 利于 搜索 引擎 的 抓 取 。 因 为 现在 大 部 分 搜索 引擎 更 喜欢 抓 取 
一 些 静 态 页 面 。 而 现在 页 面 大 部 分 数据 部 是 动态 显示 的 。 这 就 需要 把 动 
态 页 面 变 成 静态 页 面 ， 这 样 有 利于 搜索 引 擎 抓 取 。 


2) 用 户 更 容易 记忆 。 很 少 有 用 户 关 心 网 站 页 面 地 址 ， 但 对 大 中 型 
网 站 来 说 ， 增 强 可 读 性 还 是 必需 的 。 























3) 隐藏 实现 技术 。 避 免 肾 露 采用 的 技术 ， 给 攻击 网 站 增加 阻碍 。 
ee 把 参数 隐藏 起 来 ， 在 一 定 程度 增加 了 攻击 的 
难度 。 


重 写 还 能 帮助 我 们 完成 很 多 事情 ， 比 如 简单 下 载 处 理 。 例 如 ， 现 在 
需要 对 外 提供 文件 下 载 服 务 ， 比如 下 载 phprar 文 件 。 在 下 载 前 还 需要 做 
许多 额外 工作 ， 如 下 载 权限 的 判断 、 服 务 器 分流 等 ， 这 束 不 是 一 个 简单 
文件 链接 可 以 处 理 的 ， 需 要 服务 器 端 脚本 做 一 些 复杂 处 理 。 通 过 使 用 
URL 重 写 ， 可 以 把 对 php.rar 文 件 的 请 求 重 定向 到 对 一 个 PHP 文 件 的 请 
求 ， 在 这 个 PHP 文 件 中 进行 判断 ， 满 足 所 有 判断 后 再 输出 文件 。 假 定 当 
前 工程 目录 是 E: 入 wwwNphp 和 download， 现 在 要 把 对 E: 入 wwwAnN 
php" download\ php.rar 的 请 求 定 同 到 一 个 PHP 文 件 。 添 加 下 面 的 代码 到 
当前 目录 的 .htaccess 文 件 中 : 























RewriteEngine on 
RewriteRule (.*\. (rar |zip|chm) ) $down.php? file=$1[NC] 





down. php 中 的 代码 如 下 : 





<=? php//echo"The file you wanna- aa 1 ET TILE J] 
$filename=basename ($_ GET[’ fil 

// 其 他 逻辑 处 理 ， 如 检查 是 否 有 权限 或 者 是 奉 属 于 次 链 ， 处 理 完成 后 提供 下 载 

if (! is_ file ($filename) | |! is_ readable ($filename)) { 

exit ("没有 找到 指定 的 文件 "); 





header ("Content-type: application/octet -stream") ; 
$ua=$__SERVER["HTTP_ USER AGENT"]; 
// 处 理 中 文 文件 名 
$encode_ filename=urlencode Cn 
% 





$encode_ filename=str_ replace (" "%20", $filename) ; 

if (preg_ match ("/MSIE/", $ua) ) 

header (’ Content- Disposition; attachment; filename="’' .$encode filename.’ "’ ); 
} else if (preg_ match ("/Firefox/", $ua) ) 

header ("Content-Disposition: attachment; filename*=\"utf8’ ’ ".$filename.’ "’ ); 
} else { 

header (’ Content-Disposition: attachment; filename="’ . $filename.’ "’ ); 














// 如 果 服 务 器 支持 Xx sendfile moudle， 则 使 用 Xx sendfile 头 加 速 下 载 
x_sendfile supported=in array (' mod xsendfile’ , apache get modules () ) ; 
if (! headers sent () && $x sendfile supported) { 
header ("X-Sendfile: {$filename} ") 
} else { 
@readfile ($filename); 
} 








再 浏览 http: /download.comyhello.rar ( 己 将 虚拟 主机 域 
download.com 了 映射 到 E: 和 wwwNphpA 


download 目 录 ) ， 此 请 求 将 被 重 定 向 到 down.php? file=hello.rar， 这 
样 就 简单 的 实现 了 对 文件 下 载 的 处 理 。 


我 们 还 能 对 重 写 做 进一步 扩充 ， 来 满足 不 同 的 需求 。 更 多 URL 重 写 


知识 可 以 参考 Apache 2 手册 。 


3.5.5 删除 文件 中 的 空 行 和 注释 

不 仅 在 代码 中 会 用 到 正则 表达 式 ， 其 实在 日 常 软件 应 用 中 也 会 涉及 
正则 表达 式 。 比 如 字 处 理 软件 、 代 码 开 发 工具 中 都 提供 对 正则 表达 式 碍 
找 和 替换 的 支持 。 

这 里 以 UltraEdit 为 例 来 介绍 正则 表达 式 在 日 常 软件 中 的 应 用 。 
UltraEdit 是 一 款 功能 强大 的 编辑 器 ， 支 持 正则 表达 式 的 使 用 。UltraEdit 
虽然 和 IDE 无 法 相提并论 ， 但 是 在 处 理 一 些小 文件 时 ， 会 显 出 其 快速 、 
轻 量 级 的 特点 。 
例如 ，PHP 源 文件 中 包含 空 行 和 注释 ，UltraEdit 中 的 代码 如 图 3-7 所 
钞 。 

这 里 面 许多 空 行 和 注释 ， 为 了 提高 代码 的 可 读 性 ， 需 要 去 除 大 段 空 
行 。 如 果 手 工 操作 ， 必 然 很 麻烦 。 此 时 ， 可 以 使 用 UltraEdit 的 正则 表达 
式 功能 。 在 编辑 菜单 中 ， 选 择 “ 奏 换 *"， 输 入 如 下 表达 式 : 





注意 ，“ t 前 面 的 空格 也 要 输入 。 单 击 丛 换 所 有 ， 文 件 中 的 空 行 就 


ER 
3-8 及 不 。 


lazy.php 











加 10 


A 30 
| 


1 lI<?php 


zerror_reporting(E_ALL); 

4 class View 

5B 1{ 

6 | protected $ values = array(); 
} 


R 

9 jclass Page //lazy load 

36 唱 |{ 

12 public $ view; 

public function _ construct() 
14D { 


15 | unset($this-> view); 


图 3-7 _ UltraEdit 中 的 代码 




















public $ view; 
9 public function _ construct() 
18 日 { 
1 unset($this-> view); 


12 } 











图 3-8 程序 运行 结果 


这 里 使 用 UltraEdit 的 正则 表达 式 ， 也 可 以 选择 UNIX (POSIX 规 范 ) 
和 Perl (PCRE 规 范 ) 风格 的 表达 式 ， 它 们 之 间 略 有 不 同 。 


提示 。 有些 框架 为 了 尽力 提升 效率 或 者 由 于 商业 的 原因 ， 往 往 会 在 
部 效 和 发 布 时 ， 通 过 解 机 PHP 代码 中 的 token 清 除 源 文件 中 表示 空白 和 注 
释 的 token。 在 这 种 情况 下 ， 使 用 代码 的 方式 可 能 更 好 。 


但 有 时 无 法 使 用 代码 完成 这 件 事 ， 我 们 不 得 不 使 用 正则 表达 式 。 比 
如 在 使 用 Word 保 存 资料 的 时 候 ， 文 件 中 第 币 会 带 有 大 量 的 空白 段落 ， 
通常 只 能 手动 删除 这 些 空 段落 来 调整 格式 ， 费 时 费力 。 在 Word 中 ， 选 
择 特殊 字符 ， 把 ”pp 蔡 换 成 ”p 即 可 。Word 中 这 两 个 所 谓 的 “特殊 字 
符 "”， 实 际 上 惑 是 正则 表达 式 的 一 种 体现 。 




















3.6 ”正则 表达 式 的 效率 与 优化 


正则 表达 式 可 以 看 做 描述 字符 串 匹 配 的 算法 代码 ， 本 质 上 说 是 一 种 
有 限 状 态 机 在 计算 机 中 的 表示 方法 。 状 态 机 ， 表 示 有 限 个 状态 以 及 在 这 
些 状态 之 间 进 行 转移 和 动作 等 行为 的 数学 模型 ， 在 计算 机 中 表示 出 来 的 
就 是 有 回 图 。 而 作为 图 就 会 处 及 碍 找 、 回 调 过 程 。 不 同 查 找 的 方式 ， 其 
回溯 过 程 也 不 一 样 ， 效 率 目 然 也 是 有 区 别 的 。 要 想 弄 明白 正则 表达 式 的 
效率 ， 就 得 深入 编译 原理 、 数 据 结构 等 概念 ， 这 里 不 做 原理 性 阐述 ， 只 
介绍 一 些 普 这 原则。 


注意 不 同 语言 中 有 不 同 实 现 和 限制 ， 因 此 下 面 一 些 原则 只 是 最 基 
本 的 原则 ， 不 保证 在 所 有 实现 中 通用 。 有 了 时候， 某 一 种 实现 会 对 预知 的 
情况 进行 优化 ， 而 另 一 种 则 不 会 。 也 就 是 说 ， 正 则 表达 式 的 效率 不 仅 和 
正则 引擎 的 种 类 有 关 ， 还 和 引擎 具体 实现 有 关 。 


1) 使 用 字符 组 代替 分 支 条 件 。 比 如 ， 使 用 [a-d] 表 示 a 一 d 之 间 的 字 
母 ， 而 不 是 使 用 (alblcld) 。 下 面 代 码 说 明 二 者 的 效率 差异 。 

















r="", 
for ($1i=0; $i<1000; $it++) { 
$ teststr.="abababcdefg"; 


// 第 一 种 方案 

$start=microtime (TRUE) ; 

for ($i=0; $i<S$cnt; $it++) { 

preg_ match (’'#° (alblcldlelflg)+$#' ，$testStr) ; 
echo' waste time (s) : ', microtime (TRUE) - $start, PHP_EOL:; 


for ($i=0; $i<$cent; $it+) ( 
preg_match (’ #° [a-g]+$#’ ,， $teststr); 
} 


echo' waste time (S) : ', microtime (TRUE) - $start, PHP_EOL; 
// 第 三 种 方案 和 第 二 种 方案 本 质 上 是 相同 的 

$start=microtime (TRUE) 

for ($i=0，$i<$cnt，$i++) { 

preg_match (’ #°“ [abcdefg]+$#’ , $teststr); 


echo' waste time (s) : ', microtime (TRUE) - $ start, PHP_ EOL:; 





运行 结果 如 下 所 示 : 





S) : 3.2742960453033 


je (Ss) :3 
waste time (s) : 0.059613943099976 
waste time (s) : 0.059823036193848 





可 以 看 出 ，[a g] 和 [abcdefg] 这 两 种 表达 式 的 效率 相当 ， 且 使 用 字符 
组 比分 支 条 件 的 速度 要 快 很 多 。 这 是 由 于 在 匹配 单个 字符 的 时 候 ， 引 擎 





会 把 [abc] 这 样 的 字符 组 视 为 1 个 元 素 ， 而 不 是 3 个 元 素 (a、b、c) 。 整 
个 元 素 作为 匹配 迭代 的 一 个 单元 ， 不 需要 进行 三 次 迭代 ， 从 而 提高 匹配 


效率 。 


2) 优先 选择 最 左 端 的 匹配 结果 。 这 在 介绍 分 支 条 件 匹 配 邮编 的 时 
候 已 经 提 到 过 。 对 于 传统 型 NFA 引 擎 来 说 ， 这 样 改动 对 正则 匹配 的 效率 
是 有 利 的 ， 因 为 引擎 一 旦 找到 匹配 结果 就 会 停 下 来 ， 而 不 会 去 尝试 正则 
表达 式 的 每 一 种 可 能 〈PHP 中 的 preg 函 数 就 属于 传统 型 NFA 引 擎 ) 。 


3) 标准 量词 是 匹配 优先 的 。 寿 用 量词 约束 东 个 表达 式 ， 那 么 在 匹 
配 成 功 前 ， 进 行 的 答 试 次 数 有 下 限 和 上 限 。 例 如 ， 正 则 表达 式 为 : 














\w* (Nd+) 








字符 串 为 copy2003y。 这 个 正则 匹配 的 1 是 多 少 ? 如果 回 答 2003 就 错 
了 ， 其 结果 应 该 是 3。 解 释 如 下 : 当 正 则 引擎 用 “\w*(\d+) ”匹配 字 
符 串 copy2003y 时 ， 会 先 用 “ws*?" 匹 配 字符 串 copy2003y。“ 和 ws 会 匹配 
字符 串 copy2003y 的 所 有 字符 ， 然 后 再 交 给 “\ d+2” 匹 配 剩 下 的 字符 串 ， 
而 剩 下 的 没有 了 。 这 时 , “和 ws#*” 规 则 会 不 情愿 地 吐出 一 个 字符 ， 给 “和 \ 
d+” 匹 配 。 同 时 ， 在 吐出 字符 之 前 ， 记 录 一 个 点 。 这 个 点 就 是 用 于 回 漳 
的 点 ， 然 后 “\ d+” 匹 配 y， 发 现 不 能 匹配 成 功 ， 此 时 会 要 求 “\w*” 再 吐 
出 一 个 字符 ; “和 A w*” 先 记录 一 个 回溯 的 点 ， 再 吐出 一 个 字符 。 这 
时 , “和 ws 匹配 结果 只 有 copy200， 已 经 吐出 3y。“\d+” 再 去 匹配 3， 发 
现 匹 配 成 功 ， 会 通知 引擎 ， 并 且 直 接 显 示 出 来 。 所 以 , “入 d+) ”的 结 
果 是 3， 而 不 是 2003。 


如 果 改 为 非 贫 禁 模 式 呢 ?“\w*? (\d+) ”匹配 结果 就 应 该 是 
2003。 由 于 “\ w*? ”是非 贫 获 ， 正 则 引擎 会 用 表达 式 “ 人 w+? ”每 次 仅 
匹配 一 个 字符 串 ， 然 后 再 将 控制 权 交 给 后 面 的 “^\ dt 匹配 下 一 个 字符 ， 
同时 记录 一 个 点 ， 用 于 匹配 不 成 功 时 ， 返 回 这 里 再 次 匹配 。 


提示 ”尽量 以 组 为 单位 进行 匹配 ， 使 用 固化 分 组 就 能 避免 无 休止 的 
匹配 。 
4) 诬 慎 用 上 号 元 字符 ， 尽 可 能 不 用 星 号 和 加 号 这 样 的 任意 量词 。 


只 要 能 确定 范围 (例如 “、\w”) ， 束 不 要 用 点 号 ; 只 要 能 够 预测 重复 次 
数 ， 就 不 要 用 任意 量词 。 假 设 一 条 微 博 消 轧 的 XML 下 文部 分 结构 如 























=span class="msg">...</span> 





正文 中 无 尖 括 号 ， 写 法 如 下 : 





=<span class="msg">[“ <] {1, 200} </span> 





或 者 : 





<span class="msg">.*</span>,， 








一 种 代码 的 思路 要 好 于 第 二 种 代码 ， 原 因 有 两 个 : 


使 用 ”< 了 ， 保 证 了 文本 的 范围 不 会 超出 下 一 个 小 于 号 所 在 位 





明确 长 度 范围 {1，200} ， 依 据 是 一 条 微 博 消 轧 大 致 的 字符 长 度 范 
围 是 固定 的 ， 现 在 微 博 字数 长 度 限 制 是 140 个 字 。 


PHP 的 PCRE 扩 展 中 提供 了 两 个 设置 项 : 

pcre. backtrack_jlimit/ 最 大 回溯 数 

pcre. recursion ”limit// 最 大 风 套 数 

默认 backtarck” limit 是 100000 (10 万 )，recursion ”limit 限 制 最 大 


正则 谍 套 层 数 。 在 正则 表达 式 的 使 用 中 ， 应 尽量 避免 回调 次 数 过 多 等 情 
况 。 





因 回调 次 数 过 多 导致 正则 匹配 失败 的 案例 如 下 : 





= hp 

$a=range CG 12636) ; 

shuffle ($a 

$d=print_r 人 TRUE) ; 

echo strlen (C$d) /1024, PHP_EOL:; 

$a="<? xml version=’ 1.0’ Sneedinge ”iso-8859-1' ? ><ppc>header". $d."tail</ppc>"; 
preg_match all ("/<ppc> (.*? ) (\d*) <\/ppc>/s", $a, $m, PREG SET ORDER); 
var_dump ($m); 

echo’ had result: ', PHP_ EOL:; 


echo 
strlen ($m[0][1]), PHP_ EOL, substr ($m[90][1], 09, 50) , PHP_ EOL, substr ($m[0][1], -50),， 
HP__EOL:; 


// 复 币 网 的 I 唯一 的 修改 是 增 内 使 正则 匹配 爆 栈 

人 se pore .backtrack_1 ，100000000) ; // 这 里 增加 为 1 亿 

S$d2= pr ant cs X2， 

ec 

$2 < xm. fy on= 1. [oW codi ing= ' 和 ><ppc>hea ader". $d2."tail</ppc> 

$ret=preg_ matc i all (" es 人 Ee pe >/s" $a2; m2, ER SET ORDER) ; 
EY Fs 

echo’' had no sult: '， PHP_ EOL: 


echo 
strlen ($m2[0][1]), PHP_ EOL, substr ($m2[0][1], 0, 50) , PHP_EOL, substr ($m2[0][1], -50); 





注意 ”程序 的 运行 结果 依赖 于 你 的 PHP 的 设置 。 


这 个 案例 告诉 我 们 ， 由 于 正则 表达 式 使 用 不 当 导 致 匹配 失败 的 情况 
是 有 可 能 发 生 的 ， 特 别 是 当 Web 文 档 比 较 大 、 结 构 比 较 复 杂 时 。 解 决 办 
法 就 是 ， 把 以 下 代码 前 面 的 注释 符 去 除 ， 给 PHP 配 置 更 大 的 回潮 栈 空 
间 : 








ini set (’' pcre.backtrack limit’ , 100000000); 





但 这 是 治标 不 治本 的 办 法 ， 最 终 解决 方案 还 是 优化 正则 表达 式 。 
同 理 ， 能 用 懒惰 匹配 就 坚决 不 用 仿 梦 匹配 。 


5) 尽量 使 用 字符 串 函 数 处 理 代 丛 。 使 用 字符 串 函 数 和 正则 表达 式 
都 可 以 处 理 字 符 串 ， 两 者 相 比 ， 人 字符 串 函数 处 理 的 效率 更 遇 。 当 然 ， 有 
些 情况 几乎 是 非 正 则 表达 式 不 能 胜任 的 ， 或 者 不 用 正则 表达 式 的 成 本 太 
高 ， 这 些 情况 不 得 不 用 正则 表达 式 ， 既 然 如 此 ， 束 应 该 设计 好 。 


6) 合理 使 用 括号 。 每 使 用 一 个 普通 括号 〈) ， 而 不 是 非 捕 获 型 括 
号 〈? : .) ， 束 会 保留 一 部 分 内 存 等 着 再 次 访问 。 这 样 的 正则 表达 
式 、 无 限 次 的 运行 次 数 ， 无 异 于 一 根 根 稻草 的 堆 加 ， 终 将 会 把 骆驼 压 
死 。 




















7) 起 始 、 行 描 点 优化 。 能 确定 起 始 位 置 ， 使 用 ”能 提高 匹配 的 速 
上 度 。 同 理 ， 使 用 标记 结尾 ， 正则 引 区 则 会 从 符合 条 件 的 长 度 处 开始 匹 
配 ， 略 过 目标 字符 串 中 许多 可 能 的 字符 。 在 写 正则 表达 式 时 ， 应 该 将 擂 
点 独立 出 来 ， 例 如 “” 〈? : abc | 123) 比 ”123 | ”abc” 效 率 高 ， 而 ““ 
(abc) 比 (“abc) ”效率 要 


. 这 个 原则 不 适用 于 所 有 正则 引擎 。 比 如 在 PCRE 中 ， 二 者 效率 相 








8) 量词 等 价 转换 的 效率 差异 。 例 如 在 PHP 中 ， 使 用 “、\d、\d、\ 
d” 和 “\d {3} ”， 或 者 “====” 和 “= {4} ”， 它 们 之 间 的 效率 几乎 没有 差 
别 。 但 是 换 用 其 他 语言 可 能 就 会 有 比较 明显 的 性 能 差异 了 。 


9) 对 大 而 全 的 表达 式 进行 拆 分 。 


10) 使 用 正则 以 外 的 解决 方案 。 前 面 已 经 提 到 ， 在 有 的 场合 可 以 使 
用 字符 串 来 代 蔡 正则 表达 式 ， 此 外 ， 还 有 其 他 方案 可 以 代 蔡 正则 表达 
式 。 例 如 ， 在 某 项 目 中 需要 分 析 PHP 代 码 ， 分 离 出 对 应 的 函数 调用 (以 
及 源 代 码 对 应 的 位 置 ) 。 虽 然 这 使 用 正则 表达 式 也 可 以 实现 ， 但 无 论 从 
效率 还 是 代码 复杂 度 方 面 考虑 ， 这 都 不 是 最 优 的 方式 。PHP 已 经 内 置 解 
析 器 的 接口 PHP Tokenizer. 


使 用 PHP ”Tokenizer 能 简单 、 高 效 、 准 确 地 分 析出 PHP 源 代码 的 组 
成 。token ”get” all 疯 数 参数 为 一 段 PHP 代 码 ， 可 提取 出 这 上 段 代 码 里 的 
常量 、 变 量 、 类 名 、 函 数 等 。 这 在 编写 phpdoc、 代 码 优 化 提速 、 自 动 加 
载 类 时 都 可 以 用 到 。 比 如 ， 在 解析 URL 时 没 必要 用 正则 表达 式 ， 使 用 
prase_url 函 数 即 可 ; 在 获取 HTTP 头 时 ， 也 可 以 使 用 get_headers 函 数 。 


在 进行 输入 校 验 时 ， 可 以 使 用 PHP 5 提供 的 filter 函 数 。 例 如 ， 校 验 
E-mail 地 址 的 代码 如 下 : 

















filter var (’ admin@example.com’ , FILTER VALIDATE EMAIL); 








这 样 是 不 是 好 多 了 呢 ? 如 果 在 JavaScript 里 ， 可 以 使 用 DOM 代 蔡 一 
些 正则 匹配 。 


罗 这 里 总 结 几 种 正则 表达 陈 的 取代 方案 ， 它 们 能 部 分 取代 正则 表达 式 
I 实现 。 


PHP 的 字符 串 函 数 ; 
PHP 的 Tokenizer 系 列 函 数 ; 
PHP 的 ul 函数 及 一 些 http 函 数 ; 


PHP 的 filter 系 列 函 数 ; 





JavaScript 的 DOM 模 型 。 


3.7 本章 小 结 


本 章 中 主要 讲解 了 正则 表达 式 的 一 些 基 本 概念 和 语法 ， 并 且 通 过 理 
论 结合 实际 的 方式 ， 讲 解 了 正则 表达 式 在 开发 中 的 应 用 ， 最 后 介绍 了 正 
则 表达 式 的 效率 优化 和 一 些 符 代 方案 。 


正则 表达 式 中 最 容易 混淆 的 就 是 转 义 ， 最 难 理解 的 就 是 环视 ， 而 环 
0 
必用 。 


在 实例 讲解 中 以 XSS 攻 击 为 例 ， 强 调 数据 过 滤 的 必要 性 , “一 切 输 
入 都 是 不 可 信任 的 ”>， 在 设计 中 ， 要 始终 保持 高 度 和 警惕。 当然， 正则 表 
达 式 只 是 一 种 解决 方案 。 接 下 来 着 重 讲 了 SEO 中 的 静态 化 ， 通 过 Apache 
的 URL 重 写 把 动态 请 求 地 址 映射 到 一 个 静态 HTML 文 件 上 ， 从 而 实现 对 
搜索 引擎 友好 的 地 址 。 


正则 优化 的 关键 理 念 束 是“ 减少 回溯 ”， 常 见 的 手段 就 是 减少 分 文 、 
BS 











正则 表达 式 是 一 种 抽象 语法 ， 要 熟练 掌握 正则 表达 式 ， 不 但 需要 学 


会 总 结 ， 还 需要 多 多 练习 。 





第 4 章 PHP 网络 技术 及 应 用 


作为 专注 于 Web 编 程 的 PHP 而 言 ， 简 单 的 网 络 模型 和 接口 ， 使 得 在 
PHP 中 实现 套 接 字 、cURL 等 都 变 得 极其 简单 。 本 章 主 要 从 HTTP 协议 入 
手 ， 逐 步 深 入 ， 展 示 PHP 网 络 技术 的 实际 应 用 。 并 且 展 开 讨 论 Socket、 
网 络 协议 分 析 、Cookie 和 Session 等 相关 知识 。 


HTTP 协 议 是 整个 web 的 基础 ， 是 客户 端 和 服务 器 端 协同 工作 的 基 
石 ， 要 想 了 解 Web 的 工作 原理 、 优 化 Web 应 用 ， 就 要 完全 理解 HTTP 协 
议 。 


4.1 HTTP 协议 详解 


简单 来 说 ，HTTP 就 是 一 个 基于 应 用 层 的 通信 规范 : 双方 要 进行 通 
信 ， 大 家 都 要 遵守 一 个 规范 HTTP 协 议 。HTTP 协 议 从 WWW 服 务 器 
传输 超 文本 到 本 地 浏览 器 ， 可 以 使 浏览 器 更 加 高 效 。HITTP 协 议 不 仅 保 
证 计算 机 正确 快速 地 传输 超 文本 文档 ， 还 能 确定 传输 文档 中 的 哪 一 部 
分 ， 以 及 哪 部 分 内 容 首 先 显 示 (如 文本 先 于 图 形 ) 等 。 


4.1.1 HTTP 协 议 与 SPDY 协 议 


HTTP (Hyper Text Transfer Protocol， 超 文本 传输 协议 ) 是 万 维 网 
协会 (World Wide Web Consortium) 和 Internet 工 作 小 组 (Internet 
Engineering Task Force， IETF) 合作 的 结果 ， 最 终 发 布 了 一 系列 的 
RFC (Request For Comments) 。RFC 1945 定 义 了 HTTP 1.0 版 本 ， 最 著 
名 的 是 RFC 2616， 其 中 定义 了 今天 普遍 使 用 的 版 本 一 一 HITP 1.1。 


HTTP 是 一 个 应 用 层 协 议 ， 由 请 求 和 响应 构成 ， 是 一 个 标准 的 客户 
端 服务 器 模型 。HTTP 通 常 承 载 于 TCP 协 议 之 上 ， 有 时 也 承载 于 TLS 或 
SSL 协 议 层 之 上 ， 这 个 时 候 ， 就 成 了 第 说 的 HITPS。 默 认 HITP 的 端口 
号 为 80，HTTPS 的 端口 号 为 443。 


HTTP 协 议 在 OSI 模型 中 的 位 置 如 图 4-1 所 示 。 


HITP 协 议 的 模型 就 是 客户 端 发 起 请 求 ， 服 务 器 回 送 啊 应 ， 如 网 4-2 
所 示 。HITP 协 议 是 一 个 无 状态 的 协议 ， 同 一 个 客户 端的 这 次 请 求 和 上 

















次 请 求 没有 对 应 关系 。 





HTTP 


TLS、SS( 











数据 链 路 层 


图 4-1 _ HTTP 协议 在 OSI 模型 中 的 位 置 


yp 请 求 
一 一 
| 


Client Server 


图 4-2 HTTP 请 求 响 应 模型 


这 种 设计 属于 典型 的 “问答 式 ” 交 互 ， 客 户 并 和 服务 器 剖 一 问 一 答 ， 
使 HITP 协 议 模型 异常 简单 。 这 种 设计 也 存在 问题 ， 比 如 服务 器 端 不 会 
主动 向 客户 端 PUSH， 一 问 一 答 的 轮 询 也 会 使 TCP 连 接 频 繁 建 并 和 断 
开 ， 导 致 其 交互 效率 不 高 。 基 于 以 上 缺点 ，SPDY 协 议 应 运 而 生 。 


SPDY 协 议 是 Google 推 出 的 协议 ， 优 化 了 浏览 器 和 服务 器 之 间 的 通 
信 ， 文 持 流 复 用 ， 具 备 优先 级 的 请 求 、 主 动 发 起 请 求 、 强 制 SSL 安 全 传 
输 等 先进 的 特性 。 目 前 ，Chrome 和 Firefox 浏 览 器 的 最 新 版 均 支 持 SPDY 
协议 ， 一 些 服 务 器 并 软件 也 纷纷 开始 支持 SPDY 协 议 ， 如 Jetty 8、Nginx 
0 可 以 预见 ， 在 未 来 的 几 年 ，SPDY 协 议 将 得 
到 很 大 推广 。 


SPDY 协 议 的 应 用 需要 客户 并 浏览 器 和 服务 器 端 同时 支持 。 目 前 ， 
应 用 SPDY 协 议 的 主要 是 Google 产 品 ， 如 Google Plus。 























4.1.2 HTTP 协议 如 何 工 作 


浏览 网 页 是 HTTP 协 议 的 主要 应 用 ， 但 是 这 并 不 代表 HTTP 协 议 就 只 
能 应 用 于 网 页 的 浏览 。 只 要 通信 的 双方 都 遵守 HTTP 协 议 ， 其 就 有 用 武 
比如 腾讯 QQ、 迅雷 等 软件 都 使 用 HTTP 协 议 (当然 还 包括 其 他 的 
办 议 ) 。 


那么 HITTP 协 议 是 如 何 工 作 的 呢 ? 


首先 ， 客 户 端 发 送 一 个 请 求 (Request) 本 服务 器 在 接收 
到 这 个 请 求 后 将 生成 一 个 啊 应 (Response) 返回 给 客户 端 。 一 次 HTTP 
操作 称 为 一 个 事务 ， 其 工作 过 程 可 分 为 四 步 : 


1) 客户 机 与 服务 器 需要 建立 连接 。 单 击 某 个 超 链 接 ，HTTP 协 议 的 
工作 开始 。 


2) 建立 连接 后 ， 客 户 机 发 送 一 个 请 求 给 服务 器 。 格 式 为 : 前边 是 
统一 资源 标识 符 〈URL) 、 中 间 是 协议 版 本 号 ， 后 边 Ee ( 包 
括 请 求 修 饰 符 、 客 户 机 信息 和 可 能 的 内 容 ) 。 


3) 服务 器 接 到 请 求 后 ， 给 予 相应 的 啊 应 信息 。 格 式 为 : 首先 是 一 
个 状态 行 〈《 包 括 信息 的 协议 版 本 号 、 一 个 成 功 或 错误 的 代码 ) ， 然 后 是 
MIME 信 息 〈 包 括 服务 器 信息 、 实 体 信息 和 可 能 的 内 容 ) 。 


4) 客户 端 接收 服务 器 返回 的 信息 并 显示 在 用 户 的 显示 屏 上 ， 然 后 
客户 机 与 服务 器 断 开 连接 。 


如 果 以 上 过 程 中 的 茶 一 步 出 现 错误 ， 产 生 错 误 的 信息 将 返回 到 客户 
端 ， 由 显示 屏 输 出 。 对 于 用 户 来 说 ， 这 些 过 各 是 由 HTTP 协 议 自己 完成 
的 ， 用 户 只 要 用 鼠标 单 击 ， 等 竺 信息 显示 就 可 以 了 。 


提示 ”怎样 才能 看 到 HTTP 协 议 呢 ?可 以 查看 RFC 2616 文 档 ， 或 者 
使 用 抓 包 软 件 。 通 用 的 抓 包 软件 主要 有 IRIS、Wireshark 等 ， 专 门 抓 取 
HTTP 包 的 软件 主要 有 HttpWatch、IE Analy zer、Fiddler、Charles 等 。 本 
书 使 用 Fiddler 进 行 查看 和 调试 ， 其 体积 小 巧 、 功 能 强大 ， 并 且 是 人 免费 
的 。 在 浏览 器 中 使 用 Firefox 的 扩展 Firebug 碍 看 HITP 请 求 。 






































下 面 简单 介绍 HTTP 协 议 中 一 些 主要 的 概念 。 
1. 请 求 
在 发 起 请 求 前 ， 需 要 先 建立 连接 。 


连接 是 一 个 传输 层 的 实际 环流 ， 它 建立 在 两 个 相互 通信 的 应 用 程序 
之 间 。 在 HTTP 1.1 协 议 中 ，request 和 response 汰 中 都 有 可 能 出 现 一 个 
connection 的 头 ， 其 决定 当 Client 和 Server 通 信 时 对 于 长 链接 如 何 进 行 处 
理 。 


HTTP 1. 1 协议 中 ，Client 和 Server 默 认 对 方 支持 长 链接 ， 如 果 Client 
使 用 HTTP 1.1 协 议 ， 但 又 不 希望 使 用 长 链接 ， 需 要 在 header 中 指明 
connection 的 值 为 cose; 如 果 Server 方 也 不 想 支持 长 链接 ， 则 在 response 
中 需要 明确 说 明 connection 的 值 为 cose。 不 论 request 还 是 response 的 
header 中 包含 了 值 为 close 的 connection， 都 表明 当前 正在 使 用 的 TCP 连 接 
| 以 后 Client 再 进行 新 的 请 求 时 必须 创建 新 
JICP 连 接 。 


HTTP 请 求 由 三 部 分 组 成 ， 请 求 行 、 消 息 报头 、 请 求 正 文 。 请 求 行 
以 一 个 方法 符号 开头 ， 以 空格 分 开 ， 后 面 跟着 请 求 的 URI 和 协议 的 版 
本 ， 格 式 如 下 : 








Method Request-URI HTTP-Version CRLF 





上 述 格 式 中 各 参数 说 明 如 下 : 

Method: 请 求 方法 。 

Request URI: 一 个 统一 资源 标识 符 。 
HTTP Version: 请 求 的 HTTP 协 议 版 本 。 


CRLF: 回 车 和 换行 (除了 作为 结尾 的 CRLF 外 ， 不 允许 出 现 单 独 的 
CR 或 LF 字符 ) 。 


请 求 方法 (所 有 方法 全 为 大 写 ) 有 多 种 ， 各 个 方法 的 解释 如 下 : 


GET: 请 求 获 取 Request URI 所 标识 的 资源 。 

POST: 在 Request URI 所 标识 的 资源 后 附加 新 的 数据 。 

HEAD: 请 求 获取 由 Request URI 所 标识 的 资源 的 响应 消息 报头 。 
PUT: 请 求 服务 器 存储 一 个 资源 ， 并 用 Request URI 作 为 其 标识 。 
DELETE: 请 求 服务 器 删除 Request URI 所 标识 的 资源 。 


TRACE: 请 求 服务 占 回 送 收 到 的 请 求 信息 ， 主 要 用 于 测试 或 诊 





CONNECT: 保留 以 备 将 来 使 用 。 


OPTIONS: 请 求 查 询 服务 器 的 性 能 ， 或 者 查询 与 资源 相关 的 选项 


2. 啊 应 


在 接收 和 解释 请 求 消息 后 ， 服 务 器 返回 一 个 HTTP 响 应 消息 。HTTP 
响应 也 由 三 个 部 分 组 成 ， 分 别 是 : 状态 行 、 消 息 报头 、 响 应 正文 。 


状态 行 格式 如 下 : 








HTTP-Version Status-Code Reason-Phrase CRLF 





上 述 格式 中 各 参数 说 明 如 下 : 

HTTP Version: 服务 器 HTTP 协 议 的 版 本 。 
Status Code: 服务 器 发 回 的 响应 状态 代码 。 
Reason Phrase: 状态 代码 的 文本 描述 。 


状态 代码 由 三 位 数字 组 成 ， 第 一 个 数字 定义 了 啊 应 的 类 别 ， 有 五 种 
可 能 取 值 : 


请 求 已 接收 ， 继 续 处 理 。 


1xx: 指示 信 忆 








2xx: 成 功 
3XX: 重 定 后 


请 求 已 被 成 功 接收 、 理 解 、 接 受 。 
必须 进行 更 进一步 的 操作 。 
4xx: 客户 端 错误 一 一 请 求 有 语法 错误 或 请 求 无 法 实现 。 
5xx: 服务 器 端 错误 一 一 服务 器 未 能 实现 合法 的 请 求 。 
常见 状态 代码 、 状 态 描述 和 说 明 如 下 : 
200 OK: 客户 端 请 求 成 功 。 
400 Bad Request: 客户 端 请 求 有 语法 错误 ， 不 能 被 服务 器 所 理解 。 


401 Unauthorize: 请 求 未 经 授权 ， 这 个 状态 代码 必须 和 WWW 
Authenticate 报 头 域 一 起 使 用 。 


403 Forbidden: 服务 器 收 到 请 求 ， 但 是 拒绝 提供 服务 。 
404 Not Found: 请 求 资 源 不 存在 ， 例 如 输入 了 错误 的 URL。 
500 Internal Server Error: 服务 器 发 生 不 可 预期 的 错误 。 


503 Server Unavailable: 服务 器 当前 不 能 处 理 客 户 端的 请 求 ， 一 段 
时 间 后 可 能 恢复 正常 。 


例如 ， 响 应 信息 “HTTP/1.1 200 OK (CRLF) ”， 表 示 响 应 请 求 到 达 
服务 器 后 被 成 功 识 别 ， 返 回 成 功 标 记 。 响 应 正文 就 是 服务 器 返回 的 资源 
的 内 容 。 

3. 报 头 


HTTP 消 息 报 头 包括 普通 报头 、 请 求 报头 、 啊 应 报头 、 实 体 报 头 。 
每 个 报头 域 组 成 形式 如 下 : 
































名 字 +: + 空格 + 值 





注意 ” 消 妃 报头 域 的 名 字 是 不 区 分 英文 大 小 写 的 。 报 头 都 是 上 自 解 杰 
的 ， 有 具体 在 这 里 就 不 描述 了 。 


1) 普通 报头 中 有 少数 报头 域 用 于 所 有 的 请 求 和 啊 应 消 轧 ， 但 并 不 
用 于 被 传输 的 实体 ， 只 用 于 传输 的 消息 〈 如 缓存 控制 、 连 接 控制 等 )。 


2) 请 求 报头 允许 客户 端 同 服 务 器 端 传递 请 求 的 附加 信息 以 及 客户 
端 自身 的 信息 〈 如 UA 头 、Accept 等 ) 。 

3) 啊 应 报头 允许 服务 器 传递 不 能 放 在 状态 行 中 的 附加 啊 应 信息 ， 
以 及 关于 服务 器 的 信息 和 对 Request URI 所 标识 的 资源 进行 下 一 步 访问 的 
信息 (如 Location) 。 


4) 实体 报头 定义 了 关于 实体 正文 和 请 求 所 标识 的 资源 的 元 信息 ， 
例如 有 无 实体 正文 。 


一 个 报关 的 信息 截图 如 图 4-3 所 示 。 


头 痊 息 响应 上 盘存 


响应 头 信 息 
上 | 国 
Date Tue, 05 Jul 2011 16:05:;32 GWT - 
ax“ ascea0 





exp 
Content-Encoding szip 
Server ews 
Content-Length 665565 
X-XSS-Protectionm 1 node=blook 
请 求 失 信息 
WWW, 区 DOSE JE nN, 
User-Agent Nozilla/S.0 (Windoms HT 5. 1 rv:5,0) Geoko/20100101 Fir 
Accept text/html, applioaticenyzhtml+xml sppliostion/xnl.q=0, Dr> 
Accept-Language zh-cn, zh. a-0.5 
Accept-Encoding ezip, defiaie 
Accept-Charset GE2312, utf-8. 9q=0.7,*;q=0.7 
Connection kececp-sliv 


图 4-3 一 个 HTTP 请 求 的 响应 数 
比较 重要 的 几 个 报头 如 下 。 


Host: 头 域 指 定 请 求 资 源 的 Internet 主 机 和 端口 号 ， 必 须 表 示 请 求 
URE 的 原始 服务 器 或 网 关 的 位 置 。HTTP 1.1 请 求 必 须 包 含 主 机 头 域 ， 否 
则 系统 会 以 400 状 态 码 返回 。 


User Agent: 简称 UA， 内 容 包 含有 发 出 请 求 的 用 户 信 息 。 通 党 UA 包 
舍 浏 览 者 的 信息 ， 主 要 是 浏览 器 的 名 称 版 本 和 所 用 的 操作 系统 。 在 图 4- 
3 所 示 中 可 以 看 到 ， 客 户 端 使 用 的 是 Gecko 演 染 引 擎 的 浏览 器 ， 这 里 是 
Firefox; 操作 系统 为 Windows NT 6.1 的 内 核 ， 即 Win dows 7 操作 系统 








据 








内核 版 本 号 和 操作 系统 代号 不 是 一 一 对 应 的 ) 。 这 个 UA 头 不 仅仅 是 
使 用 浏览 器 才 存 在 ， 只 要 使 用 了 基于 HTTP 协 议 的 客户 端 软件 都 会 发 送 
这 个 请 求 ， 无 论 是 手机 端 还 是 PDA 等 。 这 个 UA 头 是 辨别 客户 端 所 用 设 
备 的 重要 依据 。 


Accept: 告诉 服务 器 可 以 接受 的 文件 格式 。 通 常 这 个 值 在 各 种 浏览 
器 中 都 差不多 。 不 过 WAP 浏 览 器 所 能 接受 的 格式 要 少 一 些 ， 这 也 是 用 
来 区 分 WAP 和 计算 机 浏览 器 的 主要 依据 之 一 。 随 着 WAP 浏 览 妖 的 升 
其 已 经 和 计算 机 浏览 器 越 来 越 接 这， 因此 这 个 判断 所 起 的 作用 也 越 


Cookie: Cookie 分 两 种 ， 一 种 是 客户 端 癌 服务 器 端 发 送 的 ， 使 用 
Cookie 报 涉 ， 用 来 标记 一 些 信 息 ， 男 一 种 是 服务 占 发 送 给 浏览 器 的 ， 报 
头 为 Set Cookie。 二 者 的 主要 区 别 是 Cookie 报 头 的 value 里 可 以 有 多 个 
Cookie 值 ， 并 且 不 需要 显 式 指定 domain 等 。 而 Set “Cookie 报头 里 一 条 记 
录 只 能 有 一 个 Cookie 的 value， 需 要 指明 domain、path 等 。 














Cache Control: 指定 请 求 和 响应 遵循 的 缓存 机 制 。 在 请 求 消息 或 啊 
应 消息 中 设置 Cache Control 并 不 会 修改 另 一 个 消息 处 理 过 程 中 的 缓存 处 
理 过 程 。 请 求 时 的 绥 存 指令 包括 no cache、no store、max age、max 
stale、min fresh、only 证 cached;， 啊 应 消息 中 的 指令 包括 public、 
private、no cache、 no store、 no transform、 must revalidate、proxy 
revalidate、max age。 





Referer: 尖 域 允许 客户 端 指定 请 求 URI 的 源 资 源 地 址 ， 这 可 以 允许 
服务 器 生成 回 退 链表 ， 可 用 来 登录 、 优 化 缓存 等 。 也 人 允许 废除 的 或 错误 
的 连接 由 于 维护 的 目的 被 追踪 。 如 果 请 求 的 URI 没 有 自己 的 URI 地 址 ， 
Referer 不 能 被 发 送 。 如 果 指 定 的 是 部 分 URI 地 址 ， 则 此 地 址 应 该 是 一 个 
相对 地 址 。Referer 通 常 是 流量 统计 系统 用 来 记录 来 访 者 地 址 的 参数 。 


Content Length: 内 容 长 度 。 





Content Range: 啊 应 的 资源 范围 。 可 以 在 每 次 请 求 中 标记 请 求 的 资 
源 范 围 ， 在 连接 断 开 重 连 时 ， 客 户 端 只 请 求 该 资源 未 下 载 的 部 分 ， 而 不 
古 重 新 请 求 整个 资产， 实现 断 点 续 传 。 迅 雷 就 是 基于 这 个 原理 ， 使 用 多 
线程 分 段 读 取 网 络 上 的 资源 ， 最 后 再 合并 。 


Accept Encoding: 指定 所 能 接受 的 编码 方式 。 通 党 服务 器 会 对 页 面 


进行 GZIP 压 缩 后 再 输出 以 减少 流量 ， 一 般 浏 览 露 均 文 持 对 这 种 压缩 后 
的 数据 进行 处 理 。 但 对 于 我 们 来 说 ， 如 有 果 不 想 接 收 到 这 些 看 似 “ 乱 码 ?” 的 
数据 ， 可 以 指定 不 接受 任何 服务 器 端 压缩 处 理 ， 要 求 其 原样 返回 。 


自 定 义 报头 : 在 HITP 消 息 中 ， 也 可 以 使 用 一 些 在 HITP 1.1 正式 规 
范 里 没有 定义 的 头 字 段 ， 这 些 头 字段 统称 为 自 定 义 的 HTTP 头 或 者 扩展 
头 。 比 如 server 字 段 ， 在 图 4-3 中 ，Google 使 用 的 是 GWS 服 务 器 。 这 个 报 
头 一 般 是 由 服务 器 发 送 的 。 也 可 以 定义 一 些 “ 不 正规 ”的 报头 ， 

如 “WEBMASTER: chen@Dqq.com”。 在 PHP 里 ， 使 用 header 函 数 即 可 实 
现 。 图 4-3 中 ，X XSS Protection 也 是 Google 目 定义 的 报头 。 


4.1.3 HTTP 应 用 : 模拟 灌水 机 器 人 


垃圾 评论 和 机 器 人 一 直 是 各 大 论坛 和 博 主 最 头疼 的 问题 ， 这 些 来 势 
凶 狐 的 数据 是 怎么 提交 到 我 们 的 服务 器 上 的 ? 是 手工 提交 还 是 男 有 秘密 
武 右 ? 如 有 果 是 用 软件 实现 的 ， 那 么 其 实现 原理 是 什么 ， 又 应 该 怎么 防 
止 ? 


为 了 解决 这 些 头疼 的 问题 ， 我 们 有 必要 先 了 解 其 产生 的 过 程 ， 然 后 
有 针对 性 地 进行 防御 。 知 已 知 彼 ， 百 战 不 列 。 


1. 浏 览 右 工作 流程 


其 实 ， 浏 览 器 就 是 一 个 实现 了 HTTP 协 议 的 客户 端 软件 ， 浏 览 器 的 
工作 流程 如 图 4-4 所 示 。 





| 输入 网 址 | | 返回 响应 | 
加 间 远 程 服 务 和 数据 
代 | HTTP ”| 器 发 起 请 求 时 


HTTP 一 





入 | 解析 数据 | 


图 4-4 浏览 器 的 工作 流程 


在 整个 过 程 中 ， 浏 览 器 扮演 的 角色 始终 是 一 个 忠实 的 执行 者 。 据 
此 ， 我 们 很 容易 束 能 想到 ， 只 要 遵循 HTTP 协 议和 服务 器 进行 交互 ， 束 
实现 了 一 个 最 简单 的 浏览 器 ， 这 个 浏览 器 只 提供 对 数据 的 收发 而 不 提供 
析 功 能 。 而 对 于 服务 器 端的 代码 而 言 ， 是 无 法 判断 是 真正 的 浏览 器 还 
只 是 一 个 虚拟 的 浏览 需 。 


2.PHP 中 和 HTTP 相 关 的 函数 


那 怎 么 发 送 HTTP 请 求 呢 ? 可 以 使 用 代码 发 送 HITTP 头 ， 如 服务 器 端 
Re 客户 端的 AJAX， 也 可 以 使 用 各 种 抓 包 软 件 构造 HITP “ Request 


吕 芒 六 


在 这 之 前 ， 先 介绍 一 些 PHP 中 与 HTTP 协 议 相 关 的 一 系列 函数 。 
array get headers (stringurl[，intformatl) 函数 : 取得 服务 器 响应 
一 个 HITP 请 求 所 发 送 的 所 有 标 头 。 通 常用 此 函数 请 求 一 个 URL， 根 据 
人 回 的 数据 判断 状态 码 是 否 为 200， 即 可 判断 所 请 求 的 资源 是 否 存 
ER 


file 系 列 函 数 : 包括 fopen、fije ”get contents 等 ， 可 以 用 来 操作 文 
件 ， 也 可 以 请 求 一 个 网 络 上 的 资源 。 


stream __* 系 列 函 数 : 发 送 请 求 ， 包 括 但 不 限于 HTTP 协 议 。 
socket 系 列 困 数 : 通过 Socket 发 送 和 请 求 数据 ， 包 括 但 不 限于 HTTP 














协议 


cURL 扩展 库 : PHP 的 一 个 扩展 ， 这 是 一 个 封装 的 函数 库 。 可 以 用 
来 模拟 浏览 器 和 服务 器 进行 交互 ， 功 能 比较 强大 。 


header 函 数 : PHP 中 可 用 此 函数 发 送 原 始 的 HITP 头 。 需 要 注意 的 
是 ， 这 个 函数 之 前 不 能 有 输出 以 及 空格 等 。 


这 里 用 最 简单 的 方式 ， 即 使 用 PHP 中 的 http build query 和 file 系 列 
函数 发 送 HTTP 请 求 。 


我 们 经 常用 fle ”get contents 打 开 文 件 ， 实 际 上 用 这 个 函数 还 可 打 
开 一 个 网 络 地 址 ， 实 现 简 单 的 网 页 抓 取 。 用 file _get__contents 或 者 
fopen、file、readfile 等 函数 读 取 URL 的 时 候 ， 会 创建 一 个 $http__ 
response header 变 量 保 存 HTTP 响 应 的 报头 ， 使 用 fopen 等 函数 打开 的 数 
据 流 信息 可 以 用 stream ”get meta _ data 获取 。 简 单 的 HTTP 协 议 如 代码 
清单 4-1 所 示 。 


代码 清单 4-1 简单 的 HITP 协 议 使 用 示例 





php 
Sn 中 file get contents (’ http: //www.baidu.com/’ ) ; 
r($http_response_header) ; 





3Tp= Ee ope nl http: 2 Ww. baidu.com/’ 
pri 此 六 (st get ea data er 3 
fc lo ESfp) 








3. 模 拟 灌水 机 器 人 


PHP 5 中 新 增 的 context 参 数 使 这 些 函 数 更 加 灵活 ， 通 过 该 参数 可 以 
定制 HTTP 请 求 ， 甚 至 POST 数 据 。 我 们 就 利用 这 个 函数 向 服务 器 发 送 请 
求 。 下 面 模拟 一 个 机 器 人 回 一 个 博客 发 送 留 言 。 


首先 打开 某 博 客 页 面 ， 查 看 评论 表单 的 字段 ， 为 发 帖 机 器 人 做 准 
备 ， 如 图 4-5 所 示 。 


从 图 4-5 可 以 看 出 ， 一 共有 三 个 字段 要 填写 ， 且 表单 使 用 POST 方 法 
提交 。 构 建 表单 值 并 提交 ， 如 代码 清单 4-2 所 示 。 





n/n j= "post” 
rhe niyooyoo 
chivesT commment” 





图 4-5 表单 字段 


代码 清单 4-2 ”构造 HTTP 灌 水 机 器 人 














1 

$data=array (’ author 菜 大 侠 '，' mail =>' infoQ@aiyooyoo.com' ，' text =>>' 博 主 很 给 力 。’ ) 
$data=http_ bui 和 qu ery Ca 

人 array ( 

”http”′=>array ( 

”method”′=>” POST 

' header’ =>"Content-type: application/x WM form-urlencoded\r \n 

"Content- Length: 对 een ($data) ."\r\n 

' content’ => $da 

) ; 











$ contex t=stream context_ create ($opts) ， 
$html= 
Ok 让 get_contents (' http: //aiyooyoo.com/index.php/archives/7/comment’ , false, $context); 





这 段 代 码 遵循 HTTP 请 求 的 格式 构造 了 一 上 段 报 文 。 注 明了 请 求 方式 
为 POST， 请 求 内 容 为 data。 


注意 http_build_query 函 数 并 不 是 必需 的 ， 这 个 函数 仅仅 是 把 传 
入 的 数组 元 素 用 以 符号 连接 起 来 并 编码 ， 也 可 以 自己 手工 构造 。 这 里 使 
用 这 个 函数 仅仅 是 为 了 方便 而 已 。 


运行 上 面 的 代码 ， 刷 新 留言 板 。 我 们 发 现 留言 并 没有 提交 ， 怎 么 回 
事 ? 代码 错 了 吗 ? 还 是 构造 的 请 求 不 符合 HITP 协 议 规范 ? 这 里 使 用 








Firefox 下 最 优秀 的 调试 工具 Firebug 进 行 测试 。 打 开 Firebug， 在 真实 环境 
下 发 个 评论 ， 看 真实 环境 中 页 面 回 服务 器 提交 了 什么 ， 如 图 4-6 所 示 。 





四 SEE 区 一 一 
NI 3 | 二 -| 入 ME MIML Cc55 肢 本 DOM | RS- A 
| 汪 除 保 堆 | MTML CSS JS XHR 图 片 、Fash 铸 休 
se Ke 坛 大 个 “| 时间 的 
可 POST comment 并 ed Te TY 下 DoOYOO.COm 过 


2545 1: 
autlhor 白 杰 post 参 数 老 

ad Lnfoguirosee. con 

text 攻 杀 要 类 和 水 。 话 忆捷 不 位 

ur 

post 的 数据 

恶人 民居 
Contert"Tyse: wollteatioe/ "wfore urienoeded 
Content-Leongth; 179 
Cr wa Te ireor 


SCtaaiSningcl 
3 CAE ER DOWEL 32 





Sees AENBONG ESAS 
EE CA 0908D5B4XEDMPSTEST 


图 4-6 We” 
从 图 4-6 中 可 以 看 到 ， 真 实 页 面向 服务 器 提交 的 数据 如 下 : 





26RASDAASAE 


ET 





Uthor=%E7%99%BD%E8%8F%9C&mail=info%40aiyooyoo.com& =& 
text=%E6%88%91%E5%BO%B1%E8%A6%81%E6%9D%A5%E7%81%8C%E6%BO%B4%EF%BC%8C%E8%BO%81%E4%B9%9F%E6%8C%A1%E4%B8%8D%E4%BD%8F%7E%7E 





这 一 串 就 是 当前 页 面向 服务 器 传送 的 真实 数据 “〈 注 意 : 中 文 和 特殊 
字符 被 编码 了 ) 。 从 HTML 代 码 我 们 知道 ，URL 是 一 个 非 必 需 字 段 ， 可 
写 可 信 写 ; 所 以 可 以 确认 POST 参数 这 间 分 是 没有 问题 的 。 


但 是 这 还 不 够 ， 因 为 POST 发 送 HTTP 数 据 可 能 还 需要 Cookie、UA 
头等 


， 服 务 器 才能 识别 ， 判 晰 结果 是 “这 才 全 我 要 的 数据 "。 人 至 二 后 于 工 
提交 的 还 是 机 器 提交 的 ， 它 是 分 不 清 的 。 看 来 上 述 问题 


可 能 是 刚才 构造 
的 数据 不 够 完整 造成 的 。 真 实 的 header 部 分 如 图 4-7 所 示 。 














请 求 头 信息 


Host aiyooyoo. con 
User- -Agent Mozilla/5.0 (Windows; U, Windows HET GC.1; zh-CH; rv:1.9.2.13) Gecko/20101203 Fizrefox/ 
Accept text/htsl, application/xhtnlixnl, application/xnl ;qn0. $/W, qn0. 8 
Accept-Language zhrcn 2h,oF0.5 
Accept-Encoding zzip, defilate 
Accept-Charset GB2312,utf-6;q-0. 7,+;q-0.7 
Keep-Alve 115 
Connection keep-alive 
Referer http: //aiyooyoo, com/index, php/srchives/?/ 
Cookjie PHPFSESSID=15ve6jsbbjSnOcjleTpbioaids: cner_a23400271=3; sin2340027=,; rtinme=0; itinme=j 
4793l1497-1252410421-; _typecho_xenenber_author™kE ToDWENE FPC; _ typecho_renen 
CON; typecho_reaenbez_text=xE6 有 5XBPWXEDSXLF3D5 








图 4-7 Firebug 中 的 请 求 头 信息 





把 有 用 的 数据 添加 到 header 部 分 以 实现 洪水 机 器 人 ， 如 代码 清单 4-3 
所 示 。 


代码 清单 43 ”灌水 机 圳 人 的 实现 





<? php 

$data=array ('′ author’ => 菜 大 侠 '，' mail’ =>' info@aiyooyo0.com” ，' text =>>' 博 主 很 给 力 。’ ) 
$data=http_ build _query Ca 

ot array ( 

http’ =>array ( 

' method’ =>" POST' ， 

' header’' =>"Content-type: Ap La A WN form-urlencoded\r \n" 
"Content-Length: ".strlen ($dat n" 

"Cookie: PHPSESSID= De et Eee a i HT 入 六 

"User-Agent: Mozilla/5.0 (Windo Ows; U; Windows NT 6.1; zh- CN; rv: 1.9.2.13) Gecko/ 
28181293 Firefox/3.6.13"."\r\n 

"Referer: http: [jaiyooyoo， com/index. php/archives/7/"."\r\n", 

‘ content’ =>$d 

Ws 














$context=stream context_ create ($opts); 
$html=@file get contents (' http: //aiyooyoo.com/index.php/archives/7/comment’ , false, $context); 
dr 





Cookie 中 加 了 当前 页 面 所 必需 的 参数 ， 还 加 了 UA、Referer 等 参 
数 。 


提示 “至 于 为 什么 要 加 这 些 参 数 、 要 加 多 少 、 为 什么 不 用 加 Accept 
参数 等 问题 都 是 丝 过 使 用 总 结 出 来 的 。 因 为 很 多 参数 实际 上 都 是 固定 的 
而 且 非 必需 的 ， 只 提交 最 主要 的 参数 即 可 。 


以 上 代码 不 一 定 是 完美 的 ， 仪 作 演 示 而 已 。 现 在 再 来 看 看 效果 ， 末 
和 
的 4-8 所 未 。 


整个 过 程 耗 时 不 到 5 分 钟 。 可 见 file_get_contents 是 个 好 东西 ， 如 
果 需 要 做 简单 的 页 面 抓 取 和 数据 提交 ， 可 以 考虑 用 这 个 函数 。 复 杂 的 应 
用 则 需要 使 用 cURL。 但 它们 本 质 是 一 样 的 ， 都 需要 了 解 HITP 协 议 。 

4. 使 用 抓 包 软 件 构造 和 提交 HTTP 请 求 

以 Fiddler 为 例 看 看 使 用 抓 包 软件 怎么 构造 和 提交 HTTP 请 求 。 

假设 已 经 安装 了 Fiddler， 这 于 软件 安 装 时 需要 .NET 运 行 时 环境 ， 


Vista 以 上 系统 自 带 .NET 运 行 时 环境 。 在 真实 的 环境 下 发 表 一 个 评论 ， 
如 图 4-9 所 示 。 




















最 近 回 复 

白菜 大 使 : 情 主 很 彤 力 。 

自 菜 ; 我 就 要 替 洪 水 ， 进 也 茹 不 
T 

白菜 大 快 ; 博 主 视 痊 力 。 

白菜 大 会; 博 主 视 给 力 。 

白菜 : 剩 试 


图 4-8 灌水 机 器 人 运行 效果 
回复 
源 加 新 评论 > 
称呼 * php 
电子 部件 " adnin@qq. con 
网 站 http://aiyooyo0- 
httpl 








图 4-9 表单 示 ; 


打开 Fiddler， 默 认 是 捕获 所 有 数据 包 ， 选 染 单 File -> Capture Traffic 
命令 ， 取 消 默 认 的 捕获 状态 。 


提示 “这 一 步 操作 不 是 必需 的 ， 主 要 是 为 了 停止 捕获 不 需要 的 数据 
包 ， 减 少 后 续 的 工作 量 。 


由 于 发 表 帖 子 是 发 送 请 求 ， 并 且 是 操作 的 起 点 ， 所 以 这 个 请 求 通常 
就 是 第 一 个 数据 包 。 找 到 此 数据 包 ， 在 右边 查看 Raw 原始 数据 ) ， 由 
此 可 确认 ， 这 就 是 刚才 发 出 的 HTTP 请 求 ， 如 图 4-10 所 示 。 








淡 





. zsi6.mzz.com /stat.htm?id 








图 4_10 Fiddler 抓 取 到 的 数据 


在 右边 选择 “Request Builder” 的 TAB 选项 ， 打 开 构 造 请 求 界面 ， 选 
择 Raw 方 式 ， 即 提交 原始 的 HITP 请 求 ， 把 上 一 步 的 数据 复制 到 数据 框 


中 ， 如 图 4-11 所 示 。 














he yea comndex.php /erchives/388 /comment HTTP/1. 1 

tee Mo Mgent Moza/5.0 (Windows NT 6, 1; rv:5.0) re 0 
frhtmi+xmlappicabonjxmlq=0.9, 9 

pe i 9"=0.5 

Accept-Encodng: grip, de| 

Oe Ce qq"=0.7,°9"=0.7 


‘tion: keep-alive 
Kener http://ayooyoo.,com/fndex.php/ardwves/383 /comment page 
Cookie: PHPSESSID =t15batf sdktoa dbf usaf3; onzz_a2340027=7; | rtime=0; lime= 1310229 15! 
-www-form-uriencoded 


author =phpémal =admin W409.comBerl =http BAMFW% AFayooyo0,.comil = text=htip 











图 4-11 Fiddler 中 查看 原始 HTTP 数 据 


单 击 “Execute”， 数 据 包 即 发 送 到 远程 客户 端 。 为 了 加 强 效果 ， 可 以 
4 下 是 侍 真 的 及 送 成 功 了 ， 效 果 如 图 4-12 
人 钞 。 





已 通过 。 符 市 核 垃 航 


操作 ; 全 选 , 不 迁 ”选中 项 ; 通过 , 待 审核 , 标 
加 © php | admin@qq com | 1.193.1 
http 


加 © php | adminBaacom | 1.193.]1 
hp 


加 © php | admin@qq.com | 1.193.1 
http 


回 © php | admin@qq.com | 1.193.1 
htt 


图 4-12 程序 运行 结果 
可 以 看 到 ， 我 们 发 送 的 数据 已 经 完全 被 服务 器 端 接受 了 。 


提示 ”使 用 代码 提交 HTTP 请 求 比较 抹 烦 ， 但 是 对 流程 的 控制 更 
强 。 比 如 用 for 循 环 不 停 地 发 送 请 求 ， 效果 更 好 。 后 面 一 种 方式 操作 简 








单 ， 不 需要 编码 ， 对 原始 数据 的 操控 性 更 强 。 二 者 各 有 优势 ， 综 合 使 用 
能 逐渐 从 应 用 中 了 解 HITP 协 议 。 


4.1.4 垃圾 信息 防御 措 六 


由 上 面 的 讲解 就 可 以 知道 垃圾 评论 的 大 体 来 源 了 ， 那 么 怎么 防御 这 
样 的 攻击 呢 ? 


总 结 一 下 ， 防 止 这 类 垃圾 评论 与 机 器 人 的 攻击 的 手段 如 下 : 


1) IP 限 制 。 其 原理 在 于 IP 难 以 伪造 。 即 使 是 对 于 拨号 有 用户， 虽然 IP 
可 变 ， 但 这 也 会 大 大 增加 攻击 的 工作 量 。 


2) 验证 码 。 其 重点 是 让 验证 码 难 于 识别 ， 对 于 “字母 + 数字 ”的 验证 
码 ， 关 键 在 于 形变 与 重 登 ， 增 加 其 破解 中 切割 和 字模 比 对 的 难度 ， 人 眼 
nn 


3) Token 和 表单 其 旷 。 通 过 加 入 隐藏 的 表单 值 或 者 故意 对 程序 混 消 
表单 值 ， 进 而 达到 判断 是 真实 的 用 户 还 是 软件 提交 的 目的 。 


4) 0 加 大 了 管理 人 员 的 工作 量 ， 但 理论 上 可 以 完全 阻止 
垃圾 评论 ， 最 无 条 也 是 最 有 效 的 策略 。 


1.IP 限 制 


HTTP 协 议 是 透明 的 、 公 开 的 ， 服 务 器 端 根 本 无 法 区 分 来 源 是 真实 
的 提交 还 是 伪造 的 。 所 以 通过 判断 Referer 等 手段 是 于 事 无 补 的 ， 但 是 
HTTP 也 有 自己 的 局 限 。 由 于 HTTP 协 议 是 应 用 层 的 协议 ， 是 基于 TCP/IP 
协议 的 ， 故 一 些 底层 的 东西 HTTP 协 议 是 无 法 伪造 的 ， 比 如 IP。 


IP 在 TCP 层 传递 ， 其 传输 需要 通过 TCP 的 “三 次 握手 ”"。 在 这 个 握手 
过 程 中 ， 有 一 个 校 验 过 程 ， 因 此 IP 是 很 难 伪 造 的 。 而 HTTP 层 属于 顶 
层 ， 无 法 控制 P， 所 以 最 简单 有 效 的 办 法 就 是 对 IP 进 行 限制 。 


但 是 ， 不 少 代 码 会 判断 HTTP 头 中 的 HITTP X FORWARDED 
FOR 是 否 是 代理 过 来 的 ， 知 是 ， 则 把 其 记 为 IP。 但 是 ，HTTP Xx 
FORWARDED__FOR 来 和 目 于 HTTP 请 求 中 的 X Forwarded For 报 头 ， 而 这 
个 报头 是 可 以 修改 的 。 这 就 可 能 造成 潜在 的 攻击 。 所 以 合理 的 判断 是 完 
全 不 考虑 代理 ， 而 使 用 SERVER 变量 中 的 HTTP CLIENT IP 或 















































REMOTE ADDR。 二 者 是 难以 伪造 的 。 出 于 安全 考虑 ， 几 是 通过 代理 
过 来 的 请 求 或 者 HTTP 头 中 包含 X Forwarded For 报 头 的 ， 很 多 程序 采取 
了 拒绝 的 方案 。 这 种 处 理 方式 比较 简单 ， 误 差 也 较 小 。 


2.Token 法 


要 防止 攻击 关键 焉 在 于 加 大 攻击 的 难度 。 最 简单 的 是 放 一 个 隐藏 可 
变 的 Token， 每 次 提交 郑 需 要 和 服务 器 校对 ， 香 通 不 过 ， 则 为 外 部 提 


入 





下 面 的 代码 称 为 Token 法 ， 可 以 阻止 一 些 简单 的 重复 ， 如 代码 清单 
4-4 上 所 示 。 


代码 清单 4-4 token.php 





<? php 

dof ne (’ SECRET’ , "67%$#ap28") ; 
function oken () { 

Sistrnt rand (1000, 9999) ， 

$str2= de eh ex oS 二 SERVER， REQUEST TIME’ ]- ; 
returny$ ubstr (md5 ($str.SECRET) ，9， 和 es tr2; 


function ($s $d { 
/Sel ela a 不同 的 和 让 和 玉生 


$m oe Ubstr te 14); 

$rs2= Gb 人 str 2 8) ; 

retu 人 =$rs.substr (md5 ($rs.SECRET) ，6，16) ) && ($ _ SERVER['′ REQUEST_ TIME’ ] -hexde 
Chr -Sr i 1ay ; 


ar_dump (v_token (m token () ) ) ; 
> 





这 样 ， 就 造成 了 其 构造 HTTP 请 求 的 困难 ， 使 其 难于 通用 。 
3. 验 证 码 


对 于 预防 一 些 灌水 机 器 人 ， 主 要 采取 验证 码 一 类 的 措施 ， 包 括 中 文 
验证 码 、 回 答 验 证 ， 但 是 对 于 这 两 点 ， 专 业 的 灌水 机 器 人 都 可 以 突破 。 
“含量 不 高 的 ， 可 以 起 到 一 定 的 阻止 作用 ， 同 时 也 降低 了 用 
户 体 难 。 


灌水 机 器 人 通常 都 会 抓 取 页 面 的 FROM 表单 ， 分 析 必 填 项 与 非 必 填 
项 ， 对 于 必 填 项 构造 请 求 。 如 果 存 在 普通 的 图 形 验 证 码 ， 则 启用 图 形 识 
别 模块 、 破 解 验 证 码 、 构 造 完整 的 数据 包 。 对 此 ， 可 以 建立 一 个 
INPUT， 用 CSS 或 者 间接 地 通过 JavaScript 设 其 页 面 为 不 可 见 ， 如 果 服 务 
器 收 到 的 数据 中 包含 有 这 个 控件 的 值 ， 那 么 肯定 是 来 自 机 器 提交 。 这 样 











也 能 起 到 一 定 的 效果 。 男 外 ， 对 INPUT 的 值 进行 欺骗 对 博客 的 垃圾 评论 
能 起 到 一 定 的 作用 。 例 如 : 


用 户 名 : 或 者 可 以 做 成 图 片 防止 机 器 的 学 习 。 
二 input type=text name=email/ 之 实际 上 代表 用 户 名 。 


二 input type=text name=url/ 过 实际 上 是 E-mail。 





二 input type=text name=author 之 实际 上 是 URL， 而 且 是 隐藏 的 不 能 
有 任何 输入 的 字段 。 


在 服务 器 端 ， 如 果 _POST['′ email′] 匹 配 的 是 一 个 电子 邮件 地 
址 ， 那 么 其 一 定 是 灌水 机 器 人 。 如 果 author 字 段 有 值 ， 那 么 其 也 一 定 是 
灌水 机 器 人 。 这 叫做 机 器 学 习 欺 骗 。 同 理 ， 可 以 定期 变更 action 的 提交 
地 址 ， 加 大 灌水 机 器 人 的 学 习 难 度 ， 也 可 以 把 所 有 数据 改 为 后 人 台 审 核 。 


但 是 ， 经 过 灌水 机 器 人 的 学 习 和 模型 修改 ， 过 一 段 时 间 必 将 卷 士 重 
来 。 阻 止 外 部 提交 一 直 是 个 难题 。 对 于 表单 ， 因 为 它 是 可 见 的 ， 所 以 很 
难 阻 止 机 器 的 狂 解 和 模拟 。 目 前 ， 可 行 的 办 法 是 使 用 Active 控 件 ， 使 用 
对 称 加 密 和 服务 器 通信 ， 因 为 Active 是 不 透明 的 。 但 是 这 样 也 存在 问 
题 ， 主 要 是 IE Only 和 技术 难度 高 ， 大 多 数 的 网 站 无 法 使 用 这 样 的 技术 ， 
特别 是 个 人 站 点 。 


使 用 JavaScript 进 行 加 蜜 验 证 和 非 平衡 图 形 验证 码 ， 可 以 阻止 99% 的 
外 部 提交 。 腾 讯 的 大 部 分 产品 都 使 用 了 这 种 技术 ， 比 如 微 博 和 邮箱 。 图 
4-13 所 示 为 移动 139 邮 箱 注 册页 面 验证 码 。 











手机 号 码 四 139 com 
图 片 粒 证 友 
1 和 
3 玫 吏 Pr 4 IR 
周 中 品 示 的 匡 寺 时 什么 ?将 你 议 力 正确 
答 霖 前 的 字母 或 数字 境 入 框 中 (下 区 分 大 小 瑟 ) 看 不 琐 , 的 一 收 


图 4-13 移动 139 邮 箱 注册 页 面 的 验证 码 
移动 的 验证 码 比 较 有 创意 ， 其 答案 是 四 选 一 ， 猜 中 的 概率 为 25%， 





这 似乎 并 不 能 有 效 地 阻止 机 器 人 的 猜测 。 但 是 由 于 其 需要 手机 验证 码 的 
参与 ， 这 是 很 难 伪造 的 ， 或 者 说 伪造 成 本 很 大 ， 因 此 有 很 高 的 安全 性 。 


Matlab 中 文 论 坛 的 注册 验证 问题 如 图 4-14 所 示 。 





Matab 中 文 论坛 » 注册 





=20%3)}+23x, 当 x=-4 时 ， 请问 dyidx = 多 少 《 
输 证 问答 Es 村 全 全 


用户 各 * | 
图 4-14 Matlab 中 文 论坛 的 注册 验证 码 


验证 码 看 似 用 户 不 友好 ， 但 由 于 其 本 身 就 是 专业 论坛 ,“ 不 专业 ?的 
注册 会 员 并 非 其 所 需要 的 ， 因 此 不 存在 用 户 不 友好 这 一 说 法 。 


提示 ”这 两 种 验证 机 制 都 是 可 取 的 。 有 心 的 读者 或 许 会 联想 到 网 络 
上 流传 的 “最 变态 的 验证 码 ” 系 列 图 片 ， 思 路 其 实 是 一 样 的 。 








4.2 ” 抓 包 工具 

在 介绍 HTTP 协 议 的 时 候 涉及 了 一 些 抓 包 工具 ， 并 且 简 单 地 使 用 它 
进行 了 HTTP 协 议 的 学 习 。 本 节 将 进一步 学 习 抓 包工 具 的 使 用 ， 并 利用 
本 节 所 学 的 知识 介绍 模拟 登录 和 采集 的 开发 思路 和 过 程 。 
4.2.1 抓 包 工具 分 类 

按照 软件 的 功能 ， 我 们 把 抓 包 工具 分 为 两 类 : 


常规 抓 包 工具 : 以 IRIS、Wireshark 为 代表 ， 这 类 软件 可 以 抓 取 到 整 
个 局 域 网 内 所 有 的 数据 包 ， 主 要 工作 在 数据 传输 层 。 


专用 抓 包工 具 : 只 抓 取 某 一 类 协议 ， 通 党 工作 在 应 用 层 ， 最 常见 的 
就 是 对 HTTP 协 议 的 抓 取 ， 如 HttpWatch、Fiddler、 IE Analyzer、Charles 
符 











由 于 Fiddler 功 能 丰富 ， 支 持 HTTP 断 点 调试 ， 并 且 是 免费 软件 〈 作 
者 一 直 在 维护 和 更 新 ) ， 是 所 有 同类 软件 中 更 新 最 及 时 、 体 积 最 小 、 功 
能 最 强大 的 免费 软件 之 一 。 本 节 重 点 介绍 Fiddler。 





4.2.2 ”Fiddler 功 能 与 原理 


Fiddler 是 用 C# 编 写 的 免费 HTTP/HTTPS 网 络 调试 器 ， 以 代理 服务 器 
的 方式 监听 系统 的 网 络 数据 流动 。 运 行 Fiddler 后 ， 就 会 在 本 地 打开 8888 
端口 ， 网 络 数据 流通 过 Fiddler 进 行 中 转 时 ， 可 以 监视 HTTP/HTTPS 数 所 
流 的 记录 并 加 以 分 析 ， 甚 至 还 可 以 修改 发 送 和 接收 的 数据 。 


Fiddler 提 供 了 清除 下 缓存 、 请 求 构 造 器 、 文 本 编码 转换 工具 等 一 系 
列 工 具 ， 对 前 端 开发 工作 很 有 价值 。 其 工作 原理 是 在 浏览 器 (或 者 其 他 
使 用 HTTP 协 议 的 进程 》 和 服务 器 之 间 扮 演 代 理 的 角色 ， 这 样 所 有 的 通 
信和 都 要 经 过 它 。Fiddler 工 作 原 理 如 图 4-15 所 示 。 


Intcrnet 交 Web | 
Explorer 一 WinINET - Fiddler 个 


图 4-15 Fiddler 工 作 原 理 


Fiddler 以 8888 端 口 开 本 地 代理 服务 器 ， 并 且 支 持 HTTPS。 所 以 ， 只 
要 你 的 HTTP 通 信 将 代理 设置 为 本 地 8888，Fiddler 都 能 帮助 你 截获 数 
据 ， 然 后 中 转 给 服务 器 或 客户 端 。 其 最 大 的 一 个 特点 是 可 以 中 途 修改 
HTTP 通 信和 内容。 


提示 Sniffer 和 Fiddler 的 工作 原理 是 一 样 的 ， 但 工作 的 网 络 层 不 











同 


4.2.3 ”安装 Fiddler 


Fiddler 下 载 地 址 : http: /www.fiddler2.com/fiddler2/version.asp， 约 
660KB， 当 前 最 新 版 本 是 V2.3.9.0。Fiddler 支 持 Windows 
2000/XP/2003/Vista/Windows 7 操作 系统 ， 但 需要 电脑 安装 
Microsoft.NET Framework v2.0 以 上 版 本 的 .NET 运 行 库 。 高 版 本 的 操作 系 
统 如 Windows 7 已 经 自 带 了 .NET 运 行 库 ， 如 果 是 Windows XP、Windows 
2003 等 ， 需 要 自行 安装 或 更 新 本 地 .NET 运 行 库 。 


下 载 Fiddler 后 双击 安装 程序 ， 按 照 提 示 安 装 到 指定 无 路 即 可 。 安 装 
完成 后 运行 软件 ， 在 浏览 器 中 输入 “http: /127.0.0.1: 8888/”， 如 果 输 出 
如 图 4-16 所 示 界 面 ， 说 明 安 装 成 功 。 


















@ Fddler Echo Service 
和 3 © © 127.0.0.1:8888 


SET / HTTP/I.1 
Host: 127.0.0. 1;88B8 
Proxy-Cormection: keep-alive 
User-Aeent: Mozilla/5.0 (Windows HT 6. 1) AppleWebKit/534, 
Accept: text/html, spplicatiorv xhtnlixnml, spplication xn) : 
Accept -Encoding: grip, deflate, sdch 
Accept-Languase: zh-CH, zh,a=0.8 
Accapt-Charset: CEK utf-8,q=0.7,*™:q=0.3 














图 4-16 ” Fiddler 运行 截图 


如 果 此 时 浏览 网 页 ，Fiddler 就 会 抓 取 到 你 和 服务 右 之 间 交 流 的 数据 
包 ， 如 图 4-17 所 示 。 


Fle Ed Rules Tools View Help 
Comment 和 Reissue X Remove » 》 Resume All 剖 Streaming ee | 寺 m 


dientsl.9oogle,c,- 
dients1.900gle.c.-. 
dientsi.goo0gle.c... | 
Cientsi.900gle,C... 
dientsl.9oogle,c... 
dientsl.900gle.C,.， 
dients1.900gle.c.-- 
dientsl.90oogle,c..。 /complete/se| 
127.0.0.1:8888 / 


图 4-17 Fiddler 抓 取 到 的 数据 





打开 Fiddler 后 ， 抓 包 默 认 是 启用 的 。 通 常 不 需要 特殊 设置 ， 在 各 种 
浏览 器 下 Fiddler 都 能 顺利 工作 。 实 际 上 ，Fiddler 和 浏览 器 无 关 。 读 者 在 
自己 本 机 使 用 Fiddler 时 ， 可 能 抓 取 不 到 茶 个 浏览 器 下 的 包 ， 这 不 是 
Fiddler 本 身 的 问题 ， 而 是 浏览 器 设置 的 问题 。 这 种 情况 下 ， 只 需 检查 浏 
览 器 的 代理 设置 。 例 如 设置 Firefox 代 理 ， 选 择 “ 使 用 系统 代理 设置 *， 其 
他 浏览 器 设置 同 理 ， 如 图 4-18 所 示 。 














图 4-18 设置 Firefox 代 理 


4.2.4 Fiddler 基 本 界面 


Fiddler 最 基本 的 功能 就 是 抓 包 与 观察 数据 ， 下 面 简单 介绍 其 界面 和 
使 用 方法 。 


Fiddler 的 界面 分 为 左右 两 栏 : 


左边 为 Web Sessions 记 录 ( 注 意 ， 这 里 的 Session 表 示 一 次 HTTP 对 
话 ， 和 PHP 里 提 到 的 一 般 意义 上 的 Session 不 是 一 个 概念 ， 这 里 只 是 沿用 
软件 中 的 称呼 ) ， 记 录 每 个 数据 包 的 序列 号 、Host、URL、 资 源 类 型 、 
HTTP 状 态 码 、 缓 存 状态 等 基本 信息 。 

右边 划分 为 上 下 两 部 分 ， 上 部 分 为 请 求 数据 ， 下 部 分 为 啊 应 数据 。 
通常 在 左 端 的 Session 列 表 里 找 到 请 求 的 URL， 单 击 即 可 在 右边 看 到 请 求 
数据 的 详细 人 信息。 常用 的 三 种 查看 方式 如 下 : 

Header (Cheader 头 格式 ) 。 

Raw (HTTP 协 议 标 准 格式 ) 。 

Hex View (十 六 进 制 数 据 流 ) 。 


在 Session 栏 里 选择 某 一 条 请 求 ， 右 击 ， 通 过 弹出 的 快捷 染 单 可 以 对 
其 执行 保存 、 标 记 、 删 除 、 重 放 、 注 释 等 0 如 图 4-19 所 示 。 
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图 4-19 标记 Session 


下 面 简 


保存 : 


单 介 绍 这 几 个 常用 功能 。 
保存 Session 数 据 ， 方 便 以 后 查看 或 者 做 资源 重 定 问 。 





标 记 : 


删除 : 
重 放 : 
注释 : 
万 外 ， 


标记 醒目 的 颜色 方便 查看 ， 例 如 图 中 第 一 条 Session 标 记 为 红 


删除 不 重要 的 或 者 认为 可 能 会 影响 到 你 的 Session 。 
再 次 执行 ， 这 个 Session 的 数据 包 将 会 重新 发 送 一 次 。 
给 Session 添 加 注释 。 注 释 将 显示 在 此 Session 的 Comment 列 。 


在 进行 HITP 协 议 分 析 时 ， 对 于 image、CSS 类 型 的 静态 请 求 


通常 无 助 于 我 们 进行 协议 分 析 ， 但 这 类 Session 往 往 还 比较 多 ， 会 干扰 我 
们 寻找 需要 的 Session， 故 需要 删除 这 类 Session。 是 一 条 一 条 选择 删除 
吗 ? 可 以 这 样 做 ， 但 是 效率 不 高 。Fiddler 提 供 了 一 个 命令 窗口 ， 位 于 
Session 列 表 的 最 底部 。Fiddler 中 内 置 了 一 些 党 用 命令 ， 方 便 管 理 
Session， 如 图 4-20 所 示 。 








国 瑟 “200 HTTP safebrowsing-ca... /safebrowsing/ 








图 4-20 Fiddler 的 命令 窗口 栏 


要 完成 上 述 任务 可 以 按 以 下 步骤 执行 : 

1) 在 命令 窗口 输入 select image， 自 动 选中 所 有 image 类 型 的 
Session， 按 delete 键 删除 。 

2) 输入 select css， 选 中 所 有 css 请 求 ， 按 Delete 键 删除 。 


通过 以 上 简单 的 两 步 ， 成 功 删 除 我 们 不 需要 的 Session。 如 果 当 前 网 
页 有 来 自 其 他 域名 的 Session， 也 会 干扰 我 们 的 分 析 ， 可 以 输 
入 “@google.hk.com” 选 中 来 自 Google 的 Session， 并 删除 。 当 要 删除 全 部 
Session 时 ， 只 需要 输入 “cls” 并 回 车 即 可 。Fiddler 还 支持 其 他 命令 ， 可 以 





在 官方 网 站 上 找到 详细 的 帮助 文档 。 


我 们 注意 到 Session 列 表 的 序号 前 都 有 一 个 小 图 标 ， 其 代表 什么 意义 
呢 ? 


表 4-1 列 举 了 各 类 Session 前 面 请 求 图 标 所 代表 的 含义 。 


表 4-1 图 标 所 代表 的 含义 
含 莹 


区 
[i 


he 


请 求 正 在 被 发 送 到 服务 器 

正在 从 服务 器 下 载 响应 

请 求 被 设置 断 点 

响应 苓 设置 断 点 

请 求 使 用 了 HTTP HEAD 方法 ， 故 响应 应 该 为 空 
该 请 求 使 用 了 HTTPS 加 密 传 输 

响应 体 为 HTML 文档 

响应 体 为 图 你 

响应 体 为 层 本 

响应 体 为 CSS 样式 表 

响应 体 为 XML 文档 

一 个 普通 的 请 求 响 应 成 功 

响应 状态 码 是 HTTP/300 ，301，302，303 or 307 重 定向 
响应 状态 码 是 HTTP/304 ， 表 示 使 用 了 缓存 

响应 是 一 个 来 自 于 客户 端 低 据 的 请 求 


服务 器 端 喝 应 错误 ， 如 404 


个 | | 二 | 会 | 回 | 回 | 转 | 启 | 网 | 图 | 加 | 玫 | 心 | 图 | 图 || 扣 | 路 


Session 异常 始 止 


掌握 了 Fiddler 的 Session 管 理 以 及 HTTP 协 议 ， 即 能 使 用 好 这 款 工 


NN 
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oO 


4.2.5 使 用 Fiddler 进 行 HITP 断 点 调试 


前 面 已 经 讲 过 了 Fiddler 的 工作 原理 ， 相 比 其 他 HTTP 抓 包工 具 ， 
Fiddler 的 优势 就 在 于 其 特有 的 工作 模式 使 其 文 持 HITP 断 点 调试 ， 这 在 
很 多 场合 是 很 有 用 的 。 下 面 通过 一 个 例子 学 习 。 以 Fiddler 官 方 提供 的 测 
试 页 为 例 ， 其 地 址 为 : http: /www.fiddler2.com/sandbox/shop/。 在 这 个 
页 面 ， 下 拉 框 选择 *1”， 单 击 check ”out 提 交 请 求 。 这 是 一 个 再 正常 不 过 
的 请 求 了 ， 我 们 的 输入 通过 表单 被 传递 给 服务 器 ， 服 务 器 进行 处 理 后 返 
回 给 我 们 。 图 4-21 是 其 返回 界面 
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图 4-21 返回 界面 


再 看 Fiddler 中 所 记录 的 请 求 数据 包 。 单 击 左边 的 Session， 右 边 窗 体 
的 数据 如 图 4-22 所 示 。 





图 4-22 Fiddler 抓 取 到 的 数据 


注意 图 中 标注 的 信息 ， IbQuantity 古 表单 的 参数 ， 其 值 “1" 是 我 们 选 
择 的 ， 经 服务 器 计算 后 得 到 结果 为 "1095”， 并 返回 给 浏览 


接 下 来 要 给 此 啊 应 设置 断 点 ， 步 又 如 下 : 
1) 在 荣 单 中 选择 Rules , Automatic Breakpoints -、 After Responses。 
2) 回 到 订购 页 面 ， 再 次 选择 “1”， 单 击 check out 按 钮 。 


3) 现在 请 求 发 出 。 经 过 Fiddler 代 理发 送 到 服务 器 ， 服 务 右 返回 啊 
应 数据 到 Fiddler 代 理 。 


4) 此 时 由 于 设置 了 Responses 断 点 ， 啊 应 被 挂 起 ， 就 能 在 Fiddler 中 
修改 啊 应 数据 。 


5) 提交 。 


此 时 咽 应 由 代理 发 送 到 客户 端 ， 束 能 看 到 啊 应 数据 了 ， 如 图 4-23 所 
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图 4-23 修改 数据 


可 以 看 到 ， 通 过 设置 啊 应 后 〈 严 格 地 说 ， 应 该 是 服务 器 啊 应 到 达 
Re ed 断 点 ， 把 HTTP 发 回来 的 啊 应 中 断 并 修改 
后 才 将 它 给 浏览 器 


还 可 以 在 请 求 发 送 前 (严格 地 说 ， 应 该 是 客户 端 请 求 发 送 给 Fiddler 
后 ， 到 达 服 务 器 前 ) 设置 断 点 ， 修 改 请 求 涉 ，Fiddler 代 理 将 会 把 修改 后 
人 然后 读 取 服务 器 响应 ， 中 转 并 返回 响应 数据 ， 如 
4-24 所 示 


这 两 个 特性 对 于 调试 AJAX 程 序 特别 有 用 ， 可 以 用 来 中 断 httpxml 请 
求 并 修改 请 求 内 容 、 修 改 GET 或 者 POST 的 数据 以 及 header 头 等 。 这 
点 ， 也 许 你 会 觉得 必要 性 不 是 太 大 ， 也 许 你 会 说 : 我 守 以 牢 己 在 页 面 修 
改 请 求 数据 多 次 提交 测试 啊 。 但 是 再 想 想 ，Fiddler 能 够 做 到 下 面 几 条 ， 
这 些 在 页 面 实 现 则 较 麻烦 。 
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图 4-24 运行 结 


1) 修改 HITTP 请 求 的 原始 数据 ， 如 UA、Cookie 等 。 

2) 构造 特殊 请 求 数据 。 某 些 网 页 会 通过 使 用 JavaScript 来 限制 用 户 
在 页 面 的 数据 输入 。 而 Fiddler 可 以 通过 直接 修改 HTTP 请 求 中 的 data 突 破 
限制 ， 随 意 提交 数据 。 


3) Fiddler 通 过 拦截 啊 应 数据 进行 中 断 ， 可 以 修改 啊 应 体 。 


AJAX 中 有 个 回调 函数 ， 通 常 这 个 回调 函数 会 根据 服务 器 的 返回 值 
进行 相应 的 客户 端 处 理 。 如 下 面 的 代码 所 示 : 
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udent\ \ .card") .val () 
student \ \ ‘card") va os .Substr (0, 1) ==0) { 
der/ajax/randcard.do", functi "(oa ta) { 
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se"suc Cess": 
udent \ \ .card") .val (data.randcard); 
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这 是 一 段 生 成 随机 不 重复 流水 号 的 代码 ， 在 输入 框 里 输入 0 后 时 
击 ， 即 可 通过 AJAX 请 求 服务 器 ， 返 回 一 段 JSON 数 据 ， 然 后 根据 JSON 
里 的 data._rc 这 个 key 的 value 进 行 不 同 的 处 理 。 如 果 是 success， 把 返回 
的 结果 赋 给 该 输入 框 ， 否 则 提示 处 理 失 败 。 


现在 可 以 给 该 啊 应 设置 断 点 ， 修 改 返 回 的 JSON 数 据 ， 模 拟 各 种 情 
况 ， 进 而 观察 代码 的 运行 情况 。 


上 面 这 三 个 优势 是 不 是 很 令 你 心动 ?你 是 不 是 灵光 一 内 地 想到 ， 从 
茶 种 意义 上 来 说 ，Fid dler 这 个 断 点 功能 可 以 帮助 我 们 测试 程序 的 安全 性 
» 如 果 想 到 了 这 一 点 ， 再 深入 地 想 下 去 ， 我 想 你 会 得 到 更 











除 此 之 外 ，Fiddler 还 可 以 修改 UA 头 。 目 前 Fiddler 文 持 对 十 几 种 浏 
览 右 UA 的 修改 ， 包 括 IE 6~9、Firefox、Chrome、iPad、Windows 
Mobile 以 及 Google 的 爬虫 等 ， 也 可 以 自 定 义 UA。 使 用 这 个 功能 ， 就 能 
经 吻 地 测试 此 针对 特定 浏览 吕 的 hacky 以 及 浏览 一 些 天 要 手机 帮 能 能 浏 
中 入 页 


4.3 Socket 进程 通信 机 制 及 应 用 


Socket 通 常 称 为 “ 套 接 字 ”， 用 于 描述 IP 地 址 和 端口 ， 是 一 个 通信 和 链 
的 句 顶 。 应 用 程序 通过 套 接 字 同 网 络 发 出 请 求 或 者 应 答 网 络 请 求 。 
Socket 既 不 是 一 个 程序 ， 也 不 是 一 种 协议 ， 其 只 是 操作 系统 提供 的 通信 
层 的 一 组 抽象 API。 


4.3.1 进程 通信 相关 概念 


进程 通信 的 概念 最 初 来 源 于 单机 系统 。 由 于 每 个 进程 都 在 自己 的 地 
址 范围 内 运行 ， 为 保证 两 个 相互 通信 的 进程 之 间 既 互 不 干扰 又 协调 一 臻 
工作 ， 操 作 系统 为 进程 通信 提供 了 相应 设施 ， 如 UNIX ”BSD 中 的 管道 
(pipe) 、 命 名 管道 Cnamed pipe) 和 软 中 断 信号 〈signal) ， 以 及 
UNIX System V 的 消息 (message) 、 共 享 存储 区 〈shared memory) 和 
信号 量 (semaphore) 等 ， 但 这 些 都 仪 限 于 用 在 本 机 进程 之 则 的 通信 。 
网 则 进程 通信 要 解决 的 是 不 同 主机 进程 间 的 相互 通信 问题 (可 把 同 机 进 
程 通信 看 作 是 其 中 的 特例 ) 。 为 此 ， 首 先 要 解决 的 是 网 间 进 程 标识 问 
题 。 同 一 主机 上 ， 不 同 进程 可 用 唯一 进程 号 〈Process ID ) 标识 。 


网 络 环境 下 ， 各 主机 独立 分 配 的 进程 号 不 能 唯一 标识 该 进程 。 例 
如 ， 主 机 A 赋 了 予 某 进程 号 5， 在 B 机 中 也 可 以 存在 5 号 进程 ， 因 此 ，“5 号 
进程 "就 没有 意义 村， 

操作 系统 支持 的 网 络 协 议 众 多 ， 不 同 协 议 的 工作 方式 不 同 ， 地 址 格 
式 也 不 同 。 因 此 ， 网 间 进 程 通信 还 要 解决 多 重 协 议 的 识别 问题 。 

为 了 解决 上 述 问题 ，TCP/IP 协 议 引 入 了 下 列 概念 。 

1. 端 口 


网 络 中 可 以 被 命名 和 寻 址 的 通信 端口 ， 是 操作 系统 可 分 配 的 一 种 资 


按照 OSI 七 层 协 议 的 描述 ， 传 输 层 与 网 络 层 在 功能 上 的 最 大 区 别 是 
传输 层 提供 进程 通信 能 力 。 从 这 个 意义 上 讲 ， 网 络 通 信 的 最 终 地 址 就 不 
仅仅 是 主机 地 址 了 ， 还 包括 可 以 描述 进程 的 某 种 标识 符 。 为 此 ，TCP/IP 
协议 提出 协议 端口 〈Protocol Port， 人 简称 端口 ) 的 概念 ， 用 于 标识 通信 





























的 进程 。 


端口 是 一 种 抽象 的 软件 结构 〈 包 括 一 些 数 据 结构 和 IO 缓冲 区 ) 。 
应 用 程序 〈 即 进程 ) 通过 系统 调用 与 某 端 口 建立 连接 (binding) 后 ， 传 
输 层 传 给 该 端口 的 数据 都 被 相应 进程 所 接收 ， 相 应 进程 发 给 传输 层 的 数 
据 都 通过 该 端口 输出 。 在 TCP/IP 协 议 的 实现 中 ， 操 作 端 口 类 似 于 一 般 的 
IO 操作 ， 进 程 获取 一 个 端口 ， 相 当 于 获取 本 地 唯一 IO 文件 ， 可 以 用 一 
般 的 读 写 原 语 访问 。 

类 似 于 文件 描述 符 ， 每 个 端口 都 拥有 一 个 端口 号 ， 都 是 整数 型 标识 
符 ， 用 于 区 别 不 同 端口 。 由 于 TCP/AP 传 输 层 的 TCP 协 议和 UDP 协议 是 完 
全 独立 的 两 个 软件 模块 ， 因 此 各 自 的 端口 号 也 相互 独立 ， 如 TCP 有 一 个 
255 号 端口 ，UDP 也 有 一 个 255 号 端口 ， 二 者 并 不 冲突 。TCP 与 UDP 段 结 
构 中 端口 的 地 址 都 是 16 比 特 ， 有 0 一 65535 个 端口 号 。 

对 于 这 65536 个 端口 号 有 以 下 使 用 规定 : 

端口 号 小 于 256 的 定义 为 常用 端口 ， 服 务 器 一 般 都 是 通过 常用 端口 
号 识别 。 任 何 TCP/P 实 现 所 提供 的 服务 都 用 1 一 1023 之 间 的 端口 号 ， 这 
是 由 IANA 管理 的 。 

客户 端 只 需 保证 该 端口 号 在 本 机 上 是 唯一 的 。 客 户 端口 号 因 存在 时 
间 很 短暂 ， 又 称 临 时 端口 号 。 

大 多 数 TCP/P 实 现 给 临时 端口 号 分 配 1024 一 5000 之 间 的 端口 号 。 大 
于 5000 的 端口 号 是 为 其 他 服务 器 预 留 的 。 


常见 的 端口 有 FTP 的 21 号 端口 ，HTTP 服 务 的 80 号 端口 ，SMTP ( 简 
单 邮 件 传输 服务 ， 后 面 会 详细 介绍 ) 的 25 号 端口 等 。 


2. 地 址 
网 络 通信 中 通信 的 两 个 进程 分 别处 在 不 同 的 机 器 上 。 遵 循 以 下 原 





台 主 机 可 与 多 个 网 络 相 连 ， 必 须 指定 一 个 特定 网 络 地 址 。 
网 络 上 每 台 主 机 应 有 其 唯一 的 地 址 。 





每 台 主 机 上 的 每 个 进程 应 有 在 该 主机 上 的 唯一 标识 符 。 


通常 主机 地 址 由 网 络 ID 和 主机 ID 组 成 ， 在 TCP/AP 协 议 中 用 32 位 整数 
值 表示 ; TCP 和 UDP 均 使 用 16 位 端口 号 标识 用 户 进 程 。 


3. 连 接 


es 间 的 通信 链 路 称 为 连接 。 连 接 表现 为 一 些 缓冲 区 和 一 组 协 
议 机 制 。 


4.3.2 ”Socket 演 示 : 实现 服务 器 病 与 客户 问 的 交互 


在 讲解 Socket 的 创建 之 前 ， 先 演示 一 下 Socket 为 何 物 。 这 里 用 Java 
实现 一 个 Socket 的 服务 器 端 与 客户 端 〈 也 可 以 用 任何 其 他 文 持 Socket 操 
作 的 语言 实现 ) ， 然后 用 PHP 做 为 客户 端 请 求 该 套 接 字 。 


在 服务 器 端 使 用 Socket 开 一 个 服务 ， 端 口 是 8001， 这 样 束 可 以 与 多 
个 客户 端 进 行 连 接 了 。 在 客户 端 ， 辐 该 Socket 发 送 一 条 消息 ， 服 务 器 端 
在 收 到 消息 后 ， 会 根据 情况 进行 一 定 的 处 理 ， 返回 给 客户 端 ， 同时 在 服 
务 嚣 问 打 印 所 有 收 到 的 消 奶 ， 如 图 4-25 所 示 。 
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图 4-25 用 Java 实 现 一 个 Socket 的 服务 器 端 与 客户 端 


从 图 4-25 中 看 到 ， 服 务 嚣 端 和 客户 并 部 采 用 Java 实 现 ， 一 旦 开局 服 
务 器 端 ， 这 个 服务 就 会 被 注册 到 Windows 的 网 络 服务 中 ， 端 口 为 8001。 
使 用 netstat 命 令 打 印 本 机 各 端口 的 网 络 连接 情况 ， 在 打印 列表 里 看 到 此 
服务 已 经 被 注册 了 。 一 旦 有 客户 端 连接 此 Socket， 操 作 系统 束 会 为 客户 
问 目 动 分 配 一 个 随机 端口 ， 用 来 和 服务 器 端 8001 端 口 进行 通信 。 


既 伏 此 服务 已 经 被 注册 到 操作 系统 中 ， 实 际 上 此 服务 和 腾讯 QQ、 
FTP 等 是 一 个 级 别 的 ， 用 它 能 够 完成 的 事情 很 多 。 为 了 验证 ， 使 用 
Telnet 连 接 ， 如 图 4-26 所 示 。 
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按 任 章 键 绯 续 . .. 
图 4-26 Socket 客 户 端 与 服务 器 端 间 的 交互 
由 于 Socket 是 开放 的 、 透 明 的 ， 一 旦 运行 ， 任 何 操作 Socket 的 语言 
都 可 以 访问 这 个 开放 的 服务 。 图 4-26 所 示 是 使 用 Java 访 问 Socket 的 ， 也 
可 以 使 用 PHP、C、Python 等 任何 提供 SocketAPI 的 语言 访问 此 服务 。 


提示 ”Socket 是 一 种 服务 ， 与 其 实现 语言 无 和 关 。 基 于 这 个 性 质 ， 我 
们 能 实现 不 同 服务 之 间 、 不 同 语言 之 间 的 互联 互通 。 


代码 清单 4-5 所 示 是 PHP 访 问 此 Socket 服 务 的 代码 。 


代码 清单 45 PHP 访问 Socket 














=? php 
$ sock=fsockopen ("192.168.0.2", 8001, $errno, $errstr, 1); 
if (! $sock) 


echo"$errstr ($errno) <br/>\n"; 

} else 

socket_set blocking ($sock，false) ; 

fwrite ($sock, "send data....\r \n") ; // 注 意 : 数据 末尾 需要 加 上 "\r、\n" 提 交 此 请 求 数据 ， 否 则 可 能 将 
// 无 法 获取 服务 器 端的 回应 ， 即 使 刷新 缓冲 也 无 效 ， 这 样 就 只 有 
// 等 到 此 连接 关闭 时 才能 获取 到 回应 

fwrite ($sock, "end\r \n"); 

// 使 用 end 命 令 终 止 此 客户 端 连接 

while (! feof ($sock) ) { 

echo fread ($sock, 128); 

flush (); 




















fclose ($sock) ; 
} 





运行 结果 如 图 4-27 所 示 。 
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图 4-27 程序 运行 结果 


提示 “本 地 进程 间 通 过 TCP 通 信 ， 使 用 Wireshark 等 抓 包 工具 是 抓 不 
到 数据 的 。 上 面 的 例子 中 ， 客 户 端 和 服务 器 端的 数据 无 法 抓 取 到 。 是 因 
为 回环 接口 的 机 制 ， 这 些 包 不 会 到 达 网 卡 ， 数 据 包 直 接 被 返回 到 传输 层 
的 输入 队列 中 去 了 。 而 抓 包工 具 要 从 网 卡 中 获取 数据 。 如 果 确 实 需要 抓 
取 这 些 数 据 ， 可 以 添加 一 条 本 地 路 由 或 者 使 用 特殊 抓 包 工具 。 如 果 是 
Linux 系 统 ， 可 以 使 用 tcpdump 命 令 来 获取 数据 包 。 


4.3.3 ”Socket 函数 原型 


看 了 这 么 多 演示 ， 大 家 对 Socket 悄 该 有 一 个 比较 直观 的 认识 了 吧 。 
Socket 就 是 一 种 通信 机 制 ， 类 似 于 银行 、 电 信 这 些 部 门 的 电话 客服 部 
门 。 打 电话 时 ， 对 方 会 分 配置 一 个 坐席 代表 回答 你 的 问题 ， 客 服部 门 就 
相当 于 Socket 的 服务 器 端 ， 你 就 相当 于 客户 端 。 在 通话 结束 前 ， 如 果 有 
人 想 找到 和 你 通话 的 坐席 代表 是 不 可 能 的 ， 因 为 你 们 正在 通信 ， 客 服部 
门 的 电话 交换 机 也 不 会 重复 分 配 。 


Socket 函 数 的 原型 定义 如 下 : 


SOCKET socket (int af, int type, int protocol) ; 





该 函数 共有 三 个 参数 : 


af: 指定 应 用 程序 使 用 的 通信 协议 的 协议 族 ， 对 于 TCP/IP 协 议 族 该 
参数 置 AF_INET， 对 于 UNIX 可 建立 本 地 Socket。 


type: 指定 创建 的 Socket 类 型 。 有 三 种 可 选项 。 


流 套 接 字 类 型 (SOCK ”STREAM) : 最 常见 的 类 型 ， 基 于 TCP 协 
议 。 


数据 报 套 接 字 类 型 (SOCK _DGRAM) : 即 UDP 数 据 报 。 





原始 套 接 字 类 型 (SOCK RAW) : 在 IP 层 对 套 接 字 进行 编程 ， 实 
际 上 就 是 在 IP 层 构造 自己 的 人 P 包 ， 然 后 把 这 个 IP 包 发 送出 去 。 


protocol: 指定 应 用 程序 所 使 用 的 通信 协议 。 最 常用 的 是 TCP 协 议 与 
UDP 协 议 。 

同样 ， 可 以 把 从 TCP/UDP 传 输 层 过 来 的 包 抓 取 过 来 并 进行 分 析 。 流 
套 接 字 和 数据 报 套 接 字 不 能 完成 的 任务 ， 可 以 在 原始 套 接 字 中 得 以 实 
现 。 所 有 语言 提供 的 Socket API 都 是 按照 这 个 原型 设计 的 。 


提示 。 Socket 从 传输 模式 上 又 分 为 端 对 端 和 点 对 点 的 连接 ， 流 套 接 
字 和 数据 报 套 接 字 都 属于 端 对 端的 连接 ， 因 此 需要 绑 定 端口 号 。 而 原始 























套 接 字 是 基于 了 协议 的 ， 属 于 点 对 点 的 传输 模式 ， 是 没有 端口 这 个 概念 
的 。 比 如 第 用 的 监测 网 络 连接 ping 命 令 ， 就 是 基于 ICMP 协 议 的 ， 它 不 
存在 端口 概念 。 


4.3.4 PHP 中 的 Socket 函 数 


要 创建 基于 Socket 的 应 用 程序 ， 束 需要 详细 地 了 解 Socket 的 应 用 方 
法 。 这 里 以 PHP 为 例 介 绍 几 个 重要 的 Socket 函 数 。 


(1) resource socket _create 


此 函数 用 于 创建 一 个 Socket， 代 码 如 下 : 





resource socket create (int $domain, int $type, int$protocol) 





该 函数 共有 三 个 参数 ， 第 一 个 参数 指定 Socket 创 建 时 所 使 用 的 通信 
协议 族 ， 其 可 选 值 和 描述 如 表 4-2 所 示 。 


表 4-2 通信 协议 族 参数 及 描述 


范 图 描 述 

AF_INET 趟 于 IPw4 的 Internet 协议 

AF_INET6 基于 IPvw6 的 Internet 协议 ，PHP 5.0 开始 添加 对 其 的 支持 
AF_UNIX UNIX 本 地 通信 协议 


第 二 个 参数 指定 Socket 通 信 的 交互 类 型 ， 其 可 选 的 值 如 表 4-3 所 示 。 





表 4-3 Socket 类 型 参数 


交 型 摘 述 
SOCK_STREAM 可 靠 的 全 双 工 链接 ， 支 持 TCP 
SOCK_DGRAM 自动 寻 址 信息 功能 ， 支 持 UDP 
SOCK_SEQPACKET 定 序 分 组 套 接 字 
SOCK_RAW 构建 传输 层 和 网 络 层 的 原始 套 接 字 
SOCK_RDNM 提供 可 信和 来 的 数据 包 和 链接 


第 三 个 参数 指定 Socket 使 用 何 种 类 型 处 理 协 议 ， 包 括 ICMP、UDP、 
TCP， 这 里 不 再 详细 介绍 


(2) socket bind 


此 函数 用 于 将 下 地 址 和 端口 绑 定 到 Socket__create 国 数 所 创建 的 句柄 
中 。 代 码 如 下 : 





bool socket bind (resource$ socket, string$address[, int$port=0]) 





socket ”bind 函数 有 三 个 参数 : 
第 一 个 参数 是 必 选 参数 ， 其 值 是 socket create 函 数 所 创建 的 句柄 。 
第 二 个 参数 是 必 选 参数 ， 其 值 是 要 绑 定 的 IP 地 址 。 


第 三 个 参数 是 可 选 参 数 ， 其 值 是 要 绑 定 的 端口 号 ， 当 socket create 
函数 所 创建 的 第 一 个 参数 是 AF INET 时 ， 需 要 指定 这 个 参数 。 


(3) socket listen 


| 在 绑 定 Socket 后 ， 服 务 器 端 使 用 此 函数 监听 客户 端 数据 。 函 数 原型 
0 下 ; 





bool socket listen (resource$ socket[, int $backlog=0]) 





第 一 个 参数 是 socket _ create 函数 创建 的 Socket 句 柄 。 
第 二 个 参数 是 可 选 参数 ， 表 示人 允许 的 最 大 连接 数 。 
(4) socket set block 


设置 为 非 阻 蹇 模式 。 函 数 原型 如 下 : 





bool socket_set_block (Cresourcey$socket) 





非 阻塞 指 在 不 能 立刻 得 到 结果 之 前 ， 该 秀 数 不 会 阻塞 当前 线程 ， 而 
会 立刻 返回 。 对 应 的 概念 是 阻塞 ， 阻 塞 就 是 干 不 完 不 准 回来 ， 必 须 得 到 
对 方 的 回应 后 才能 继续 下 一 步 操作 。 特 别 是 当 用 户 比 较 多 时 ， 设 置 成 非 
了 咀 窟 是 很 必要 的 。 如 果 是 阻 暑 模式 ， 寿 两 个 客户 并 同时 连接 上 ， 服 务 占 
端 在 处 理 一 个 客户 端 请 求 时 ， 男 外 一 个 客户 端的 请 求 被 会 密 阻 晨 ， 只 有 
等 到 前 一 个 客户 端的 事情 处 理 完 了 ， 后 一 个 客户 端的 请 求 才 会 被 啊 应 。 











(5) socket write 


使 用 此 函数 问 Socket 写 入 数据 。 函 数 原 型 如 下 : 





int socket write (resource$ socket, string$buffer[, int$1length=0]) 
(6) socket_read 








用 此 函数 从 Socket 中 读 取 指定 长 度 的 数据 。 函 数 原 型 如 下 : 





string socket_ read (resource$ socket, int $1length[, int $type=PHP_BINARY READ]) 





要 注意 第 三 个 参数 ， 指 定 要 读 取 数据 的 类 型 ， 默 认为 PHP__ 
BINARY READ， 安 全 读 取 二 进 制 数据 ， 男 外 一 个 值 是 PHP__ 
NORMAL ”READ， 当 遇 到 “rr 或 “\n” 时 停止 。 





(7) pfsockopen 


实现 长 连接 。Client 方 与 Server 方 先 建立 通信 连接 ， 连 接 建 立 后 不 断 
开 ， 然 后 再 进行 报 文 发 送 和 接收 。 函 数 原 型 如 下 : 





pfsockopen (string$ hostname[, int $ port=-1[, int& $errno[, string& $errstr[, float $timeout=ini get 
("default socket timeout") ]]]]) 





(8) socket set option 


设置 Socket 的 控制 选项 ， 函 数 原型 如 下 : 





bool socket set option (resource$ socket, int $level, int$optname, mixed$optval) 





例如 设置 $socket 发 送 超 时 1 秒 ， 接 收 超 时 3 秒 : 





socket_ set option ($socket, SOL SOCKET, SO_RCVTIMEO, array ("sec"=>1, "usec"=>0) ) ; 
socket_ set option ($socket, SOL SOCKET, SO_SNDTIMEO, array ("sec"=>3, "usec"=>0) ) ; 
(9) socket_ last error 








妆 数 返回 操作 中 任何 socket 函 数 产 生 的 最 后 错误 ， 返 回 值 是 一 个 int 
型 的 错误 代号 。 函 数 原 型 如 下 : 








int socket last error ([resource®$ socket]) 





使 用 socket strerror() 函数 给 出 对 错误 码 的 字符 串 描 述 。 有 具体 定 
义 在 Windows 和 类 UNIX 系 统 略 有 差异 ， 限 于 篇 幅 不 再 列举 。PHP 手 册 中 
也 有 列举 ， 位 于 : 








xt\sockets\unix socket constants.h 
xt\sockets\win32 socket constants.h 
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提示 ”要 想 深 入 Socket 的 内 部 实现 机 制 是 很 困难 的 ， 作 为 一 名 非 反 
层 程 序 员 ， 我 们 只 要 明白 Socket 是 一 套 操作 系统 封 效 好 的 函数 ， 会 创建 
和 调用 就 可 以 了 。 

代码 清单 4-6 演 示 了 在 PHP 里 创建 一 个 Socket 的 方法 。 


代码 清单 4-6 PHP 创建 Socket 





过 ?php 
host="192.168.0.2"; 
port=12345; 
set time 1imit (9) ; // 最 好 在 CLI 模 式 下 运行 ， 保 证 服务 不 会 超时 
// 创 建 Socket 
socket=socket_ create (AF_INET, SOCK_ STREAM, 0) or die ("Could not create socket Nn'") ; 
/// 绑 定 socket 到 指定 地 址 和 端口 
result=socket_bind ($socket, $host, $port) or die ("Could not bind to socketNn'") ; 
// 开 始 监 听 连 接 
result=socket listen ($socket, 3) or die ("Could not set up socket listenerNn'") ; 
// 接 收 连接 请 求 并 调用 另 一 个 子 Socket 处 理 客户 端 一 服务 器 间 的 信息 
spawn=socket accept ($socket) or die ("Could not accept incoming connectionNn'" ) ; 
// 读 取 客户 端 输入 
input=socket_read ($spawn，1024) or die ("Could not read input \n"); 
//clean up input string 
input=trim($input) ; 
// 反 转 客户 端 输入 数据 ， 返 回 服务 端 
output=strrev ($input) ."\n"; 
socket_ write ($spawn, $output, strlen ($output) ) or die ("Could not write output \n"); 
// 关 闭 sockets 
socket_close ($spawn) ; 
socket_close ($socket) ; 


























PHP 的 语言 特性 和 上 自 映 定位 决定 了 它 只 适合 做 客户 端 ， 而 不 适合 做 
服务 器 疾 。 因 为 Socket 主 要 面向 确 层 和 网 络 服 务 开 友 ， 一 般 服 务 嚣 端 部 
是 用 C、Java 等 语言 实现 ， 这 样 能 更 好 地 操纵 确 屋 ， 对 网 络 服务 开发 中 
遇 到 的 问题 〈 如 并 发 、 阻 压 等 ) 也 有 完善 、 成 熟 的 解决 方案 ， 而 PHP 显 
然 不 适合 这 种 应 用 场景 。 


实际 上 ，PHP 操 作 MySQL 数 据 库 也 是 通过 Socketj 进 行 的 ， 这 正和 是 由 
于 Socket 屏 珊 了 的 层 的 协议 ， 使 得 网 络 服务 之 间 的 互联 互通 变 得 简单 。 


提示 除了 传统 的 服务 器 端 语言 实现 的 Socket 外 ， 随 着 HTML 5 的 
流行 ， 浏 览 器 客户 端 实现 的 WebSocket 也 逐渐 兴起 ， 对 于 这 一 点 值得 关 
注 。EFlashSocket 也 是 一 个 不 错 的 解决 方案 。 











4.3.5 Socket 交互 应 用 : 使 用 Socket 抓 取 数 据 


要 在 客户 端 操作 Socket， 可 使 用 fsockopen、socket create、stream 
socket_client 等 函数 实现 。 如 果 是 PHP 5， 建 议 使 用 stream__socket。 


看 一 个 实例 ， 用 Socket 完 成 4.1.3 节 论坛 灌水 机 器 人 的 功能 。 


Rs 


首先 ， 到 目的 地 (http: //typecho.org/archives/54) 真实 提交 一 次 ， 
用 Fiddler 碍 看 抓 到 的 数据 ， 如 图 4-28 所 示 。 
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图 4-28 Fiddler 抓 包 结 
使 用 Socket 获 取 数 据 的 实现 ， 如 代码 清单 4-7 所 示 。 
代码 清单 4-7 使 用 Socket 获 取 数 据 








二 ”php 
post_=array (' author' =>' 一 直 都 在 ” ，' mail’ =>' wait@qq.com’ ，' url’ =>' ' ，' text' =>' 测试 ' ) ， 
data=http build query ($post— 
fp= fsockopen (" typecho.org", 80, $errno, $errstr, 5); 
dute "POST http: //typecho. org/archives/s4/comment HTTP/1. 二 NF 
$ out.="Host: typecho.org\r \n' 
$out.="User-Agent: Mozilla/5.0 ‘windows U; Windows NT 6.1; zh-CN; rv: 1.9.2.13) Gecko/20101203 Firefox/3.6.13"."\r\n"; 
$ out.="Content-type: application/x-www-form-urlencoded \r \n"; 
站 out ,="Referer: http: //typecho.org/archives/54/\r \n"; 
$ out.="PHPSESSID= 082bocc33cc7e6df1f87502c456c3ebo \ r An 
$out.="Content-Length: ".strlen ars) 了 二 
$ out.="Connection: cl0se Wren 
$ out. =$data' NT \n 
fwrite ($fp, $out) 
while (! feof ($fp) ) { 
echo fgets ($fp, 1280); 





fclose ($fp) ; 








Web 应 用 程序 是 无 法 区 分 机 器 和 人 的 ， 人 和 机 器 都 是 通过 Socket 提 
区 数据 ， 只 不 过 人 是 通过 浏览 器 调用 操作 系统 的 Socket 提 交 ， 而 机 器 人 
是 通过 目 己 写 代码 调用 Socket 提 交 。 如 果 没 有 4.1.3 节 提 到 的 防 机 器 人 设 
置 ， 那 么 上 面 的 代码 可 以 很 轻松 地 实现 灌水 。 


最 后 ， 注 意 以 下 几 反 : 


fsockopen 的 第 一 个 参数 hostname 不 要 带 “http: /字符 串 ， 除 非 使 用 
SST 等 ， 


Headers 请 求 不 一 定 都 要 按照 抓 包 数 据 全 部 带 上 ， 除 非 调 试 不 成 功 
或 者 不 熟练 或 者 有 特殊 需求 可 以 全 部 照搬 ， 人 否则 只 带 上 几 个 核心 的 


header。 
在 Connection 和 data 后 有 两 个 换行 ， 如 图 4-28 所 示 。 
有 些 表单 请 求 可 能 有 hidden 值 ， 务 必 仔细 抓 包 。 
注意 编码 问题 。 


前 面 说 过 ， 建 议 使 用 stream socket 实现 。 若 使 用 stream _ socket 实 
现 只 改 一 行 代码 就 行 ， 如 下 : 








$fp=stream socket_ client ("tcp: //typecho.org: 80", $errno, $errstr, 3).; 








在 PHP 中 ，99.99% 的 Socket 应 用 属于 流 套 接 字 范畴 ， 由 于 数据 报 套 接 
字 和 原始 套 接 字 涉 及 比较 底层 的 协议 知识 ， 这 里 就 不 介绍 了 ， 有 兴趣 的 
读者 可 以 自行 学 习 。 








4.4 cURL 工具 及 应 用 


在 cURL 还 没有 普及 之 前 ， 和 常 用 Snoopy 工 具 进 行 网 络 数据 抓 取 。 
cURL 是 利用 URL 语 法 规定 传输 文件 和 数据 的 工具 ， 支 持 很 多 协议 ， 如 
HTTP、FTP、Telnet 等 。 

cURL 是 一 个 通用 的 库 ， 并 非 PHP 独 有 。 其 实 ， 很 多 功能 用 file、 
socket 系 列 函 数 都 可 以 实现 ， 不 过 用 cURL 功能 更 全 面 ， 实 现 一 些 复杂 的 
操作 更 简单 ， 比 如 处 理 Cookie、 验 证 、 表 单 提 交 、 文 件 上 传 等 。 


4.4.1 ”建立 cURL 请 求 的 基本 步骤 


在 学 习 更 复杂 的 功能 之 前 ， 先 来 看 在 PHP 中 建立 cURL 请 求 的 基本 
又 : 


1) 初始 化 。 

2) 设置 选项 ， 包 括 URL。 

3) 执行 并 获取 HTML 文 档 内 容 。 
4) 释放 cURL 人 句柄 。 

具体 实现 如 代码 清单 4-8 所 示 。 
代码 清单 4-8 ”cURL 的 具体 实现 








E 





> Ph 化 

$ch=curl init (); 

//2. 设 置 选项 ， 包 括 URL 

curl_ setopt ($ch, CURLOPT_ URL, "http: //www.php.net 
curl setopt ($ch, CURLOPT RETURNTRANSFER, 1); ee exec () 获取 的 信息 以 文件 流 的 形式 返回 ， 
ee 

curl_seto ($e CURLOPT__HEADER, 1); 

2 中 和 从 于 文人 的 入 息 作 为 数据 流 输出 

//3 .执行 并 获取 HTML 文 档 内 容 

$output=curl exec ($ch); 

//4 .释放 cURL 句柄 

curl_close ($ch) ; 

echo $output: 











很 多 时 候 并 不 需要 header 头 ， 把 CURLOPT_ HEADER 设 为 0 或 者 不 
设置 “默认 为 0) 。 


一 长 串 cUREL 参 数 可 供 设 置 ， 它 们 能 指定 UREL 请 求 的 各 个 细节 。 
要 一 次 性 全 部 看 完 并 理解 可 能 比较 困难 ， 这 里 只 介绍 一 些 常 用 方 
法 ， 详 情 介 绍 可 参考 PHP 手 册 。 


4.4.2 ”检查 cURL 错误 和 获取 返回 信息 
我 们 加 一 段 检查 错误 的 语句 〈 虽 然 这 并 不 是 必需 的 ) 





人 =curl exec ($ch) ; 
if ($ output===FALSE) { 
echo"cURL Error: ".curl_ error ($ch) ; 





,请 注意 ， 比较 时 用 的 是 “===FALSE”， 而 非 “==FALSE”。 这 是 为 了 

空 输出 和 布尔 值 FALSE， 因 为 布尔 值 才 是 真正 的 错误 。 男 外 ， 通 过 

_ getinfo〈) 函数 返回 cURL 执行 后 这 一 请 求 相关 的 信息 ， 这 对 调试 
和 排查 错误 是 很 有 用 的 。 代 码 如 下 所 示 : 








curl exec ($ch) ; 
$info=curl getinfo ($ch) ， 
echo' 获取 ' .$info[’ url’ | ' 耗 时 /.$info[' total time’ ].' 秒 '; 





返回 的 数组 如 代码 清 蛙 4-9 所 示 。 
代码 清单 4-9 返回 的 数组 





( 

ur1L]=>http: //www.php.net// 资 源 网 络 地 址 
content_type]=>>text/html; charset=utf-8// 内 容 编码 
http_code]=>200//http 状 态 码 

header size]=>395//header 的 大 小 
request_size]=>590// 请 求 的 大 
filetime]=>>-1// 文 件 创建 时 间 
ssl_verify_result]=>6//SSL 验 证 结果 
redirect_count]=>0// 跳 转 次 

total time]=>>2.356// 耗 时 
namelookup_time]=>9//DNS 查 询 时 间 
connect_time]=>9.297// 连 接 时 间 
pretransfer_time]=>9.297// 准 备 传输 耗 时 
size_upload]=>9// 上 传 数据 大 小 
size_download]=>34738// 下 载 数据 大 小 
speed_download]=>14744// 下 载 速 度 
speed_upload' ]=>>69// 上 传 速度 
download content length]=>>-1// 下 载 内 容 程度 
upload content length]=>>06// 上 传 内 容 长 度 
starttransfer time]=>0.921// 开 始 传输 耗 时 
redirect_time]=>9// 重 定向 耗 时 
certinfo]=>Array// 认 证 信息 

) 











这 些 信息 在 调试 时 是 很 有 用 的 。 当 抓 取 数据 出 错 的 时 候 ， 惑 可 以 输 
出 此 数组 查看 具体 的 信息 。 例 如 ， 在 cURL 抓 取 的 时 候 ， le ea 
等 原因 ， 时 常 出 现 抓 取 数 据 不 完整 的 情况 ， 我 们 就 需要 加 一 个 校 验 。 通 
过 对 所 获取 的 数据 计算 filesize， 然 后 和 curl_getinfo 获 取 的 数据 进 





较 ， 如 果 大 小 相等 ， 就 认定 下 载 正确 ， 人 否则 进行 重复 答 试 。 比 如 ， 三 次 
答 试 均 不 成 功 后 选择 放 奔 或 者 放 入 失败 队列 ， 过 一 段 时 间 再 答 试 。 


看 一 个 例子 。 使 用 cURL 抓 取 网 络 上 的 一 张 图 片 ， 比 较 抓 取 图 片 的 
人 目的 是 校 验 数 据 是 否 完整 。 详 细 代码 如 代码 清单 4- 
10 所 未。 


代码 清单 4-10 ”cURL 抓 取 图 片 











=? php 

@header (' Content-type: image/png’ ); 

//1 .初始化 

$ch=curl init (); 

//2. 设 置 选 项 ， 包 括 URL 

curl_setopt ($ch, CURLOPT_URL, "http: //renren.com/usr/uploads/2011/06/3230341841.png" 
curl_setopt ($ch,CURLOPT RETURNTRANSFER，1) ; // 将 curl exec〔) 获取 的 信息 以 文件 流 的 形 Ee 


b 
//curl_setopt ($ch, CURLOPT_ HEADER, 1); 
// 启 用 时 会 将 头 文件 的 信 息 作为 数据 流 输 出 
//3. 执 行 并 获取 内 容 
$output=curl exec ($ch); 
//4 .释放 cURL 人 句柄 
$ info=curl getinfo ($ch); 
curl_close ($ch); 
file put contents ("g: /bak/temp/1/a. png" ， $output) ; 
$ size=filesize ("g: /bak/temp/1/a.png" 





























if ($size! = tol size_download’ ]) 
echo' 下 载 数 据 不 完 

Ne 下 载 ， 2 次 不 成功 则 放弃 ， 或 加 入 失败 队列 
else 





echo' 下 载 数据 完整 ，0 (n_n) 0 一 ' :; 
} 


ee | 


4.4.3 在 cUREL 中 伪造 头 信息 


前 面 提 到 ， 头 信息 很 重要 ， 它 是 服务 器 端 和 客户 端的 身份 证 明和 区 
流 方式 。 本 节 用 cURL 模 拟 手 机 登录 3g.qq.com。 


首先 在 浏览 器 中 输入 “3g.qq.com”， 会 自动 跳 转 到 3gqq.qq.com， 显 
示 的 不 是 我 们 要 的 内 容 。 因 为 腾讯 识别 到 我 们 在 使 用 浏览 嚣 访问， 自动 
转 回 其 他 地 址 ， 如 图 4-29 所 示 。 


FETSR ™ 











全 | 手机 贿 i 
Po 3G.QQ.COM 





首页 资讯 36 QQ 














图 4-29 手机 腾讯 网 截图 


要 想 实 现 手机 访问 的 效果 ， 就 需要 用 cURL 模拟 手机 UA 访问 它 ， 如 
代码 清单 4-11 所 示 。 


代码 清单 4-11 cURL 模拟 手机 UA 





<=? php 

@header (' Content-type: text/html; charset=utf-8’ ):; 

// 第 一 次 初始 化 

$ch=curl init () ， 

curl_ setopt ($ch, CURLOPT_URL, "http: //3g.qq.com"); 

curl_ setopt ($ch, CURLOPT RETURNTRANSFER, 1); 

$h=array (’ HTTP_VIA: HTTP/1.1 SNXA-PS-WAP-GW21 (infoX-WISG, Huawei Technologies) ' ， 
' HTTP__ACCEPT: application/vnd.wap.wmlscriptc, text/vnd. wap.wml, application/vnd.wap.html+xml, appli 
cation/xhtml+xml, text/html, multipart/mixed, */* 

' HTTP_ ACCEPT CHARSET: IS0-8859-1, US-ASCII, UTF- 8; Q=0.8, IS0-8859-15; Q=0.8, ISO- 
10646-UCS-2; Q=0.6, UTF-16; Q=0.6' ) ; 

curl_ setopt ($ch, CURLOPT HTTPHEADER, $h); 

$output=curl exec ($ch); 

curl_ close ($ch) ; 

// 第 二 次 跳 转 

$ch=curl init (); 

curl_ setopt ($ch, CURLOPT_ URL, "http: //info50.3g.q9q.com/g/s? aid=index&amp; s_it=3&amp:; g_from= 
3gindex&amp; &amp; g_ f=1283"); 

curl_ setopt ($ch, CURLOPT RETURNTRANSFER, 1); 

curl_ setopt ($ch, CURLOPT_ HTTPHEADER, $h); 

$output=curl exec ($ch); 

curl close ($ch) ; 

echo $output; 


ee | 


运行 结果 如 图 4-30 所 示 。 


ce GC © 127.0.0.1/t/curl.php 
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图 4-30 用 cURL 模拟 手机 UA 访问 结果 


通过 查看 源 代 码 可 知 ， 返 回 结果 的 确 与 手机 设备 相同 。 头 信息 来 自 
诺基亚 手机 ， 通 过 访问 一 个 输出 $ ”SERVER 的 页 面 获得 。 腾 讯 对 不 同 
ey 了 不 同 的 视图 。 比 如 NOKIA 1681C 手 机 ， 获 得 
人 言 已 0 下: 








HAZZ-PS-WAP1-GW14 (infoX-WISG, Huawei Technologies) , HTTP_ Xx_ UP_DEVCAP_ SCREENDEPTH: 16 HTTP_X_UP_DEVCAP_ SCREENPIXELS: 
128, 160 





“128，160” 就 是 手机 的 屏幕 尺寸 。 如 果 用 宽屏 手机 如 iPhone 4S 或 者 
安 卓 手机 访问 ， 由 于 其 屏幕 分 辩 率 较 大 ， 得 到 的 也 应 该 是 一 个 宽屏 页 
面 。 














验证 访问 的 页 面 是 不 是 真 的 WAP 页 面 ， 不 需要 看 源 代码 ， 也 不 需 
要 使 用 手机 实际 查看 ， 只 要 更 换 浏 览 器 的 UA 头 即 可 ， 而 360 浏 览 器 、 
Opera 等 都 是 支持 的 ，Firefox 也 有 对 应 的 插件 。 


注意 ”用 这 种 方法 “欺骗 ? 移 动 、 联 通 、 电 信 的 网 站 是 不 行 的 。 以 移 
动 为 例 ， 因 为 实际 上 我 们 使 用 真实 的 手机 访问 网 站 时 ， 所 有 数据 都 是 被 
移动 网 天 代理 的 ， 会 带 上 一 些 特殊 的 涉 ， 如 手机 写 、 手 机 特征 码 、 手 机 
所 在 基站 等 ， 这 些 信 息 很 难 伪造 (针对 我 们 而 言 是 一 个 黑 盒 ) ， 普 通 的 
网 站 是 得 不 到 这 些 特殊 的 头 的 《被 屏 若 ) 。 这 就 是 为 什么 现在 不 能 通过 
WAP 页 面 获 取 手 机 号 的 原因 。 


如 末 你 的 网 站 需要 获取 来 访 者 手机 号 ， 需 要 和 移动 签订 合作 协议 ， 
证 移动 网 关 对 你 的 开发 服务 器 所 在 卫 放 开 约束 。 


移动 公司 由 于 拥有 这 些 数据 ， 束 能 开 友 手机 定位 等 Web 应 用 。 因 
此 ， 我 们 在 自己 的 手机 上 ， 不 输入 手机 号 就 能 登录 移动 官网 查询 话费 。 


4.4.4 在 cURL 中 用 POST 方法 发 送 数据 


当 发 起 GET 请 求 时 ， 数 据 通过 “得 询 字 串 ”(query string) 传递 给 一 
个 URL。 例 如 ， 在 Google 中 搜索 时 ， 搜 索 关 键 字 即 为 URL 碍 询 字 串 的 一 


部 分 ， 





http: //www.google.com.hk/search? q=php 





这 种 情况 下 可 能 并 不 需要 cURL 模拟 ， 把 这 个 URL 于 给 fe get 
contents () 束 能 得 到 相同 结果 。 


不 过 有 一 些 HTML 表 单 是 用 POST 方法 提交 的 。 这 种 表单 提交 时 ， 
人 (request body) 发 送 ， 而 不 是 查询 字 串 。 当 然 ， 
前 面 介 绍 过 用 file 和 Socket 系 列 函 数 处 理 POST， 这 里 介绍 cUREL 处 理 方 
了 可 以 用 PHP 脚 本 模拟 这 种 URL 请 求 、 


首先 ， 新 建 一 个 可 以 接受 并 显示 POST 数据 的 文件 post__- 
output.php : 





print_r ($_POST); 





接 下 来 ， 写 一 段 PHP 脚 本 执行 cURL 请 求 ， 如 代码 清单 4-12 所 示 。 
代码 清单 4-12 ”PHP 中 使 用 cURL 发 送 数 据 





$url="http: //localhost/post output.php"; 
$post— data=array 

"foo"=>" Rs 

"query"= >"php", 

a =>! ‘Submit" 


i curl init () ， 

curl_ setopt ($ch, CURLOPT_URL, $u 

curl setopt ($ch, CURLOPT_| RE TURNTAANSLER, 生计 

// 设 置 为 POST 

curl setopt ($ch，CURLOPT_POST，1) ; 

// 把 POST 的 变量 加 上 

curl_ setopt ($ch，CURLOPT_POSTFIELDS，$post_data) ; 
$output=curl exec ($ch); 

curl_ close ($ch) 

echo $output; 





执行 代码 后 应 该 会 得 到 以 下 结果 : 





Array 


( 
[foo]=>bar 
[query]=>php 
[action]=>Submit 
和 





这 段 脚 本 发 送 一 个 POST 请 求 给 post output.php 并 返回 ， 利 用 cURL 
捕捉 了 这 个 输出 。 


试 着 改写 前 面 那个 经 典 例子 ， 辐 博客 提交 留言 。 现 在 已 经 使 用 
file、Socket、cURL 这 三 种 方法 实现 了 同一 件 事 。 





4.4.5 使 用 cURL 上 传 文件 


上 传 文件 和 POST 十 分 相似 ， 因 为 所 有 的 文件 上 传 表单 都 是 通过 
POST 方法 提交 的 。 首 先 新 建 一 个 接收 文件 的 页 面 upload_output.php: 





print_r ($_FILES) ; 











代码 清单 4-13 所 示 是 真正 执行 文件 上 传 任 务 的 脚本 。 
代码 清单 4-13” cURL 上 传 文件 





$url="http: //localhost/upload output.php":; 
post_ data=array 

// 要 上 传 的 本 地 文件 地 址 

"upload"=>"@test .zip" 

) 


$ch=curl_init (); 

curl setopt ($ch, CURLOPT_ URL, $url); 

curl setopt ($ch, CURLOPT RETURNTRANSFER, 1); 

curl_ setopt ($ch, CURLOPT POST, 1); 

curl_ setopt ($ch, CURLOPT_ POSTFIELDS, S$post_ data): 





$output=curl exec ($ch) ; 
curl_ close ($ch); 
echo $output; 





如 果 要 上 传 一 个 文件 ， 只 需要 把 文件 路 径 当 作 一 个 POST 变量 传 过 
去 ， 不 过 记得 在 前 面 加 上 @ 符 号 。 执 行 这 段 脚本 应 该 会 得 到 如 下 输出 : 





Array 
[upload]=>Array 
( 


[name]=>test.zip 
[type]=>application/octe-stream 
[tmp_name]=>aabb.tmp 
[error]=>0 

[size]=>118364 

ps 








提示 “ 当 POST 的 数据 来 自 外 部 时 ， 需 要 注意 检查 并 过 滤 @ 符 号 ， 
因为 @ 符 号 在 cURL 中 是 有 特殊 作用 的 ， 而 本 身 并 不 属于 危险 字符 。 


4.4.6 ”cURL 批 处 理 

cURL 还 有 一 个 高 级 特性 一 一 批 处 理 句 顶 (handle) 。 这 一 特性 允许 
pe 或 异步 地 打开 多 个 cURL 连接 。 代 码 清单 4-14 所 示 是 来 自 手 册 的 示 
列 代码 。 


代码 清单 4-14 ”cURL 批 处 理 示 例 代码 





// 创 建 两 个 cURL 资源 

$chi=curl init (); $ch2=curl init (); 

// 指 定 URL 和 适当 的 参数 

curl_setopt ($ch1i, CURLOPT__URL, Eb //1xr.php.net/"); 
curl_setopt ($chi, CURLOPT HEADER, 

ET 0 Eh CURLOPT__URL， hetpr //www.php.net/"):; 
curl_seto ($ch2, CURLOPT__HEADER, 

77 的 是 生生 站 理 台 

$mh=curl multi init (); 

// 加 而 两 个 次 浙 句柄 

curl multi add handle ($mh, $ch1); 

curl multi add .handle ($mh, $ch2); 

// 预 定义 一 个 状态 变量 

$active=null; 

// 执 行 批 处 理 do { 

$mrc=curl multi exec ($mh, $active); 

} while ($mrc==CURLM CALL DL RE 
while ($active&& $mrc==CURLM _ | OK) 

if (curl multi select ($mh) ! =-1) { 

do { 

$mrc=curl multi exec ($mh, $a e); 
人 ($mrc==CURLM CALL | UT RE 





) 闫 闭 各 个 句柄 

curl multi remove_ handle ($mh, $ch1); 
curl multi remove_ handle ($mh, $ch2); 
curl multi close ($mh) ; 





这 里 要 做 的 就 是 打开 多 个 cURL 人 句柄 并 指派 给 一 个 批 处 理 句 顶 ， 然 
后 只 需 在 一 个 while 循 环 里 等 它 执 行 完 毕 。 


这 个 示例 中 有 两 个 主要 循环 : 


第 一 个 do...….. while 循 环 重 复 调 用 curl multi exec () 。 这 个 函数 
是 无 隔断 (non blocking) 的 ， 但 会 尽 可 能 少 地 执行 。 它 返回 一 个 状态 
值 ， 只 要 这 个 值 等 于 常量 CURLM CALL MULTI PER FORM,， 就 
代表 还 有 一 些 刻 不 容 组 的 工作 要 做 《〈 例 如 ， 把 对 应 UREL 的 HITP 头 信息 
发 送出 去 ) 。 也 就 是 说 ， 需 要 不 断 调 用 该 函数 ， 直 到 返回 值 发 生 改 变 。 


接 下 来 的 while 循 环 ， 只 在 active 变 量 为 true 时 继续 。 这 一 变量 之 前 作 
为 第 二 个 参数 传 给 了 curl multi exec () ， 代 表 只 要 批 处 理 句 柄 中 是 
否 还 有 活动 连接 。 接 着 调用 curl multi” select () ， 在 活动 连接 〈 例 如 
接受 服务 器 啊 应 ) 出现 之 前 ， 它 都 是 被 “< 屏蔽”? 的。 这 个 函数 成 功 执 行 
后 ， 义 会 进入 男 一 个 do..... while 循 环 ， 继 续 下 一 条 URL。 











说 明 很 多 人 把 这 种 方式 称 为 cCURE 多 线程 处 理 ， 而 curl multi 
exec 并 不 是 多 线程 ， 它 属于 异步 处 理 的 范畴 。 


4.4.7 cURL 设置 项 


cURL 有 许多 设置 选项 ， 这 些 选 项 才 是 cURL 的 灵魂 。 通 过 curl_ 
setopt 沁 数 设置 ， 原 型 如 下 : 





bool curl_ setopt (resource $ch, int$option, mixed$value) 








由 于 选项 特别 多 ， 我 们 只 介绍 几 个 最 常见 而 又 很 重要 的 。 如 果 需 要 
实现 SSL 传 输 、 断 点 传输 或 者 遇 到 获取 页 面 出 现 乱码 、 欲 获取 服务 器 超 
时 出 错 等 ， 那 么 下 面 的 选项 对 你 会 有 很 大 帮助 ， 如 表 4-4 所 示 。 





表 4-4 cURL 常用 选项 


选 项 描 述 
CURLOPT_AUTOREFERER 当 根 据 Location: 重 定 向 时 ， 自 动 设置 header 中 的 Referer: 信息 
启用 时 cURL 会 仅 仅 传 递 一 个 Session Conkie， 忽 略 其 他 Cookie， 默 认 状 况 下 
CURLOPT_COOKIESESSION cURL 会 将 所 有 Cookie 返回 给 服务 器 端 。Session Cookie 指 用 来 判断 服务 器 端的 Ses- 


sion 是 理 有 效 而 存在 的 Cookie 


启用 将 服务 器 返 回 的 "Location:“ 放 在 hesder 中 ， 递 归 地 返回 给 服 务 器 ， 使 用 


CURLOPT_ FOLLOWLOCATION Oe NS 
CURLOPT_MAXREDIRS 可 以 限定 递归 返回 的 数量 


CURLOPT_HEADER 启用 时 将 头 文件 的 信息 作为 数据 流 输 出 

CURLOPT_RETURNTRANSFER 将 euqd_exeef) 获取 的 信息 以 文件 流 的 形式 返回 ， 而 不 是 直接 得 出 
CURLOPT_INFILESIZE 设 定 上 传 文件 的 大 小 ， 单 位 为 字 节 【byte) 

CURLOPT_MAXCONNECTS 和 超过 会 通过 CURLOPT_CLOSEPOLICY 决定 应 该 停止 哪些 
CURLOPT_MAXREDIRS 指定 HTTP 重 定 向 的 最 多 数量 ， 和 CURLOPT_FOLLOWILOCATION 一 起 使 用 


设 定 HTTP 请 求 中 " Cookie:“ 部 分 的 内 容 。 多 个 Cookie 用 分 号 分 隔 ， 分 号 后 带 一 
个 空格 【 全 如 | ," fruit = appley eolour = red" ) 

包 人 Cookie 数据 的 文 件 名 ，Cookie 文 件 的 格式 可 以 是 Netsoupe 格式 » 或 者 只 是 
纯 HTTP 头 部 信息 存 人 文件 
CURLOPT COOKIEJAR 连 接 关 束 后 保存 Cookie 信 总 的 文件 

HTTP 请 求 头 中 "” Accept- Encoding: ”的 从 支持 的 篇 码 有 ”identity”,”deflate" 和 
"gzip" 。 如 果 为 空 字符 串 ""， 请 求 头 会 发 送 所 有 支持 的 编码 类型 

全 部 数据 使 用 HTTP 协议 中 的 " POST" 操作 来 发 送 。 要 发送 文件 ， 在 文件 名 前 而 
加 上 @ 前 级 并 使 用 完整 路 径 。 这 个 依 数 通过 urlencoded 后 的 字符 串 类 似 Panl = 
vall &pan2 = val2&. 或 使 用 一 个 以 字段 名 为 键 值 ， 字 段 数据 为 值 的 数组 。 如 果 val- 
ue 是 一 个 数组 ，Content-Type 头 将 会 被 设置 成 multipart/ form dats 

以 "X-Y* 的 形式 组 成 ， 其 中 X 和 Y 都 是 可 选项 获取 数据 的 范围 ， 单 位 是 字 节 
HTTP 传输 线程 也 支持 几 个 这 样 的 重复 项 中 间 用 逗号 分 隔 如 "X-Y,N-M” 
CURLOPT_REFERER HTTP 请 求 头 中 * Referer: "的 内 容 


CURLOPT_COOKIE 


CURLOPT_COOKIEFILE 


CURLOPT_ENCODING 


CURLOPT_POSTFIELDS 


CURLOPT_RANGE 


选 项 
CURLOPT_HTTPHEADER 


CURLOPT_FILE 
CURLOPT_INFILE 


CURLOPT_HEADERFUNCTION 


CURLOPT_WRITEFUNCTION 


提示 如果 觉得 i 


息 的 字符 串 
串 。 设置 返回 值 为 精确 的 已 写 人 字符 串 长 度 


【 续 ) 
描 述 


数组 形式 如 下 : 
Content- length : 1007? 


用 来 设置 HTTP 头 字 有 段 的 数组 
array{ Content- type: text/plain’, 
设置 输出 文件 的 位 置 ， 值 是 一 个 资源 类 型 ， 默 认为 STDOUT {浏览 末 ) 

在 上 传 文件 的 时 候 需要 读 取 的 文件 地 址 ， 值 是 一 个 资源 类 型 

设置 一 个 回调 郴 数 ， 其 有 两 个 参数 : 第 一 个 是 cURL 的 资源 句柄 ， 第 二 个 是 办 
出 的 header 数据 。header 数据 的 输出 必须 依 闽 这 个 画 数 ， 返 回 已 写 信 的 茹 据 大 小 

拥有 两 个 参数 的 回调 函数 : 第 一 个 是 参数 是 会 话 句 栖 ， 第 二 是 HTTP 哆 应 头 信 
使 用 此 回调 丁 数 ， 将 自行 处 理 响 应 头 信息 。 哟 应 头 信 息 是 整个 字符 
发 生 错误 时 传输 线程 终止 


这 个 函数 设置 起 来 比较 搁 烦 ， 使 用 curl 


__Setopt 


array 函 数 可 把 所 有 设置 项 作为 一 个 数组 罕 进 去 设置 。 
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